Accedi

Bibliografie tematiche / Reconnaissance faciale automatisée / Tesi

Segui questo link per vedere altri tipi di pubblicazioni sul tema: Reconnaissance faciale automatisée.

Tesi sul tema "Reconnaissance faciale automatisée"

Autore: Grafiati

Pubblicato: 25 gennaio 2025

Cita una fonte nei formati APA, MLA, Chicago, Harvard e in molti altri stili

Scegli il tipo di fonte:

Vedi i top-22 saggi (tesi di laurea o di dottorato) per l'attività di ricerca sul tema "Reconnaissance faciale automatisée".

Accanto a ogni fonte nell'elenco di riferimenti c'è un pulsante "Aggiungi alla bibliografia". Premilo e genereremo automaticamente la citazione bibliografica dell'opera scelta nello stile citazionale di cui hai bisogno: APA, MLA, Harvard, Chicago, Vancouver ecc.

Puoi anche scaricare il testo completo della pubblicazione scientifica nel formato .pdf e leggere online l'abstract (il sommario) dell'opera se è presente nei metadati.

Vedi le tesi di molte aree scientifiche e compila una bibliografia corretta.

1

Maalej, Ahmed. "Reconnaissance d'Expressions Faciale 3D Basée sur l'Analyse de Forme et l'Apprentissage Automatique". Phd thesis, Université des Sciences et Technologie de Lille - Lille I, 2012. http://tel.archives-ouvertes.fr/tel-00726298.

Testo completo

Abstract (sommario):

La reconnaissance des expressions faciales est une tâche difficile, qui a reçu un intérêt croissant au sein de la communauté des chercheurs, et qui impacte les applications dans des domaines liés à l'interaction homme-machine (IHM). Dans le but de construire des systèmes IHM approchant le comportement humain et emotionnellement intelligents, les scientifiques essaient d'introduire la composante émotionnelle dans ce type de systèmes. Le développement récent des capteurs d'acquisition 3D a fait que les données 3D deviennent de plus en plus disponibles, et ce type de données vient pour remédier à des problèmes inhérents aux données 2D tels que les variations d'éclairage, de pose et d'échelle et de faible résolution. Plusieurs bases de données 3D du visage sont publiquement disponibles pour les chercheurs dans le domaine de la reconnaissance d'expression faciale leur permettant ainsi de valider et d'évaluer leurs approches. Cette thèse traite le problème la reconnaissance d'expressions faciale et propose une approche basée sur l'analyse de forme pour la reconnaissance d'expressions dans des cadres de données 3D statiques et 3D dynamiques. Tout d'abord, une représentation du modèle 3D du visage basée sur les courbes est proposée pour décrire les traits du visage. Puis, utilisant ces courbes, l'information de forme qui leur est liée est quantifiée en utilisant un cadre de travail basé sur la géométrie Riemannienne. Nous obtenons ainsi des scores de similarité entre les différentes formes locales du visage. Nous constituons, alors, l'ensemble des descripteurs d'expressions associées à chaque surface faciale. Enfin, ces descripteurs sont utilisés pour la classification l'expressions moyennant des algorithmes d'apprentissage automatique. Des expérimentations exhaustives sont alors entreprises pour valider notre approche. Des résultats de taux de reconnaissance d'expressions de l'ordre de 98.81% pour l'approche 3D statique, et de l'ordre de 93.83% pour l'approche 3D dynamique sont alors atteints, et sont comparés par rapport aux résultats des travaux de l'état de l'art.

Gli stili APA, Harvard, Vancouver, ISO e altri

2

Abdat, Faiza. "Reconnaissance automatique des émotions par données multimodales : expressions faciales et des signaux physiologiques". Thesis, Metz, 2010. http://www.theses.fr/2010METZ035S/document.

Testo completo

Abstract (sommario):

Cette thèse présente une méthode générique de reconnaissance automatique des émotions à partir d’un système bimodal basé sur les expressions faciales et les signaux physiologiques. Cette approche de traitement des données conduit à une extraction d’information de meilleure qualité et plus fiable que celle obtenue à partir d’une seule modalité. L’algorithme de reconnaissance des expressions faciales qui est proposé, s’appuie sur la variation de distances des muscles faciaux par rapport à l’état neutre et sur une classification par les séparateurs à vastes marges (SVM). La reconnaissance des émotions à partir des signaux physiologiques est, quant à elle, basée sur la classification des paramètres statistiques par le même classifieur. Afin d’avoir un système de reconnaissance plus fiable, nous avons combiné les expressions faciales et les signaux physiologiques. La combinaison directe de telles informations n’est pas triviale étant donné les différences de caractéristiques (fréquence, amplitude de variation, dimensionnalité). Pour y remédier, nous avons fusionné les informations selon différents niveaux d’application. Au niveau de la fusion des caractéristiques, nous avons testé l’approche par l’information mutuelle pour la sélection des plus pertinentes et l’analyse en composantes principales pour la réduction de leur dimensionnalité. Au niveau de la fusion de décisions, nous avons implémenté une méthode basée sur le processus de vote et une autre basée sur les réseaux Bayésien dynamiques. Les meilleurs résultats ont été obtenus avec la fusion des caractéristiques en se basant sur l’Analyse en Composantes Principales. Ces méthodes ont été testées sur une base de données conçue dans notre laboratoire à partir de sujets sains et de l’inducteur par images IAPS. Une étape d’auto évaluation a été demandée à tous les sujets dans le but d’améliorer l’annotation des images d’induction utilisées. Les résultats ainsi obtenus mettent en lumière leurs bonnes performances et notamment la variabilité entre les individus et la variabilité de l’état émotionnel durant plusieurs jours
This thesis presents a generic method for automatic recognition of emotions from a bimodal system based on facial expressions and physiological signals. This data processing approach leads to better extraction of information and is more reliable than single modality. The proposed algorithm for facial expression recognition is based on the distance variation of facial muscles from the neutral state and on the classification by means of Support Vector Machines (SVM). And the emotion recognition from physiological signals is based on the classification of statistical parameters by the same classifier. In order to have a more reliable recognition system, we have combined the facial expressions and physiological signals. The direct combination of such information is not trivial giving the differences of characteristics (such as frequency, amplitude, variation, and dimensionality). To remedy this, we have merged the information at different levels of implementation. At feature-level fusion, we have tested the mutual information approach for selecting the most relevant and principal component analysis to reduce their dimensionality. For decision-level fusion we have implemented two methods; the first based on voting process and another based on dynamic Bayesian networks. The optimal results were obtained with the fusion of features based on Principal Component Analysis. These methods have been tested on a database developed in our laboratory from healthy subjects and inducing with IAPS pictures. A self-assessment step has been applied to all subjects in order to improve the annotation of images used for induction. The obtained results have shown good performance even in presence of variability among individuals and the emotional state variability for several days

Gli stili APA, Harvard, Vancouver, ISO e altri

3

Abdat, Faiza. "Reconnaissance automatique des émotions par données multimodales : expressions faciales et des signaux physiologiques". Electronic Thesis or Diss., Metz, 2010. http://www.theses.fr/2010METZ035S.

Testo completo

Abstract (sommario):

Cette thèse présente une méthode générique de reconnaissance automatique des émotions à partir d’un système bimodal basé sur les expressions faciales et les signaux physiologiques. Cette approche de traitement des données conduit à une extraction d’information de meilleure qualité et plus fiable que celle obtenue à partir d’une seule modalité. L’algorithme de reconnaissance des expressions faciales qui est proposé, s’appuie sur la variation de distances des muscles faciaux par rapport à l’état neutre et sur une classification par les séparateurs à vastes marges (SVM). La reconnaissance des émotions à partir des signaux physiologiques est, quant à elle, basée sur la classification des paramètres statistiques par le même classifieur. Afin d’avoir un système de reconnaissance plus fiable, nous avons combiné les expressions faciales et les signaux physiologiques. La combinaison directe de telles informations n’est pas triviale étant donné les différences de caractéristiques (fréquence, amplitude de variation, dimensionnalité). Pour y remédier, nous avons fusionné les informations selon différents niveaux d’application. Au niveau de la fusion des caractéristiques, nous avons testé l’approche par l’information mutuelle pour la sélection des plus pertinentes et l’analyse en composantes principales pour la réduction de leur dimensionnalité. Au niveau de la fusion de décisions, nous avons implémenté une méthode basée sur le processus de vote et une autre basée sur les réseaux Bayésien dynamiques. Les meilleurs résultats ont été obtenus avec la fusion des caractéristiques en se basant sur l’Analyse en Composantes Principales. Ces méthodes ont été testées sur une base de données conçue dans notre laboratoire à partir de sujets sains et de l’inducteur par images IAPS. Une étape d’auto évaluation a été demandée à tous les sujets dans le but d’améliorer l’annotation des images d’induction utilisées. Les résultats ainsi obtenus mettent en lumière leurs bonnes performances et notamment la variabilité entre les individus et la variabilité de l’état émotionnel durant plusieurs jours
This thesis presents a generic method for automatic recognition of emotions from a bimodal system based on facial expressions and physiological signals. This data processing approach leads to better extraction of information and is more reliable than single modality. The proposed algorithm for facial expression recognition is based on the distance variation of facial muscles from the neutral state and on the classification by means of Support Vector Machines (SVM). And the emotion recognition from physiological signals is based on the classification of statistical parameters by the same classifier. In order to have a more reliable recognition system, we have combined the facial expressions and physiological signals. The direct combination of such information is not trivial giving the differences of characteristics (such as frequency, amplitude, variation, and dimensionality). To remedy this, we have merged the information at different levels of implementation. At feature-level fusion, we have tested the mutual information approach for selecting the most relevant and principal component analysis to reduce their dimensionality. For decision-level fusion we have implemented two methods; the first based on voting process and another based on dynamic Bayesian networks. The optimal results were obtained with the fusion of features based on Principal Component Analysis. These methods have been tested on a database developed in our laboratory from healthy subjects and inducing with IAPS pictures. A self-assessment step has been applied to all subjects in order to improve the annotation of images used for induction. The obtained results have shown good performance even in presence of variability among individuals and the emotional state variability for several days

Gli stili APA, Harvard, Vancouver, ISO e altri

4

Al, chanti Dawood. "Analyse Automatique des Macro et Micro Expressions Faciales : Détection et Reconnaissance par Machine Learning". Thesis, Université Grenoble Alpes (ComUE), 2019. http://www.theses.fr/2019GREAT058.

Testo completo

Abstract (sommario):

L’analyse automatique des expressions faciales représente à l’heure actuelle une problématique importante associée à de multiples applications telles que la reconnaissance de visages ou encore les interactions homme machine. Dans cette thèse, nous nous attaquons au problème de la reconnaissance d’expressions faciales à partir d’une image ou d’une séquence d’images. Nous abordons le problème sous trois angles.Tout d’abord, nous étudions les macro-expressions faciales et nous proposons de comparer l’efficacité de trois descripteurs différents. Cela conduit au développement d’un algorithme de reconnaissance d’expressions basé sur des descripteurs bas niveau encodés dans un modèle de type sac de mots, puis d’un algorithme basé sur des descripteurs de moyen niveau associés à une représentation éparse et enfin d’un algorithme d’apprentissage profond tenant compte de descripteurs haut niveau. Notre objectif lors de la comparaison de ces trois algorithmes est de trouver la représentation des informations de visages la plus discriminante pour reconnaitre des expressions faciales en étant donc capable de s’affranchir des sources de variabilités que sont les facteurs de variabilité intrinsèques tels que l’apparence du visage ou la manière de réaliser une expression donnée et les facteurs de variabilité extrinsèques tels que les variations d’illumination, de pose, d’échelle, de résolution, de bruit ou d’occultations. Nous examinons aussi l’apport de descripteurs spatio-temporels capables de prendre en compte des informations dynamiques utiles pour séparer les classes ambigües.La grosse limitation des méthodes de classification supervisée est qu’elles sont très coûteuses en termes de labélisation de données. Afin de s’affranchir en partie de cette limitation, nous avons étudié dans un second temps, comment utiliser des méthodes de transfert d’apprentissage de manière à essayer d’étendre les modèles appris sur un ensemble donné de classes d’émotions à des expressions inconnues du processus d’apprentissage. Ainsi nous nous sommes intéressés à l’adaptation de domaine et à l’apprentissage avec peu ou pas de données labélisées. La méthode proposée nous permet de traiter des données non labélisées provenant de distributions différentes de celles du domaine source de l’apprentissage ou encore des données qui ne concernent pas les mêmes labels mais qui partagent le même contexte. Le transfert de connaissance s’appuie sur un apprentissage euclidien et des réseaux de neurones convolutifs de manière à définir une fonction de mise en correspondance entre les informations visuelles provenant des expressions faciales et un espace sémantique issu d’un modèle de langage naturel.Dans un troisième temps, nous nous sommes intéressés à la reconnaissance des micro-expressions faciales. Nous proposons un algorithme destiné à localiser ces micro-expressions dans une séquence d’images depuis l’image initiale (onset image) jusqu’à l’image finale (offset image) et à déterminer les régions des images qui sont affectées par les micro-déformations associées aux micro-expressions. Le problème est abordé sous un angle de détection d’anomalies ce qui se justifie par le fait que les déformations engendrées par les micro-expressions sont a priori un phénomène plus rare que celles produites par toutes les autres causes de déformation du visage telles que les macro-expressions, les clignements des yeux, les mouvements de la tête… Ainsi nous proposons un réseau de neurones auto-encodeur récurrent destiné à capturer les changements spatiaux et temporels associés à toutes les déformations du visage autres que celles dues aux micro-expressions. Ensuite, nous apprenons un modèle statistique basé sur un mélange de gaussiennes afin d’estimer la densité de probabilité de ces déformations autres que celles dues aux micro-expressions.Tous nos algorithmes sont testés et évalués sur des bases d’expressions faciales actées et/ou spontanées
Facial expression analysis is an important problem in many biometric tasks, such as face recognition, face animation, affective computing and human computer interface. In this thesis, we aim at analyzing facial expressions of a face using images and video sequences. We divided the problem into three leading parts.First, we study Macro Facial Expressions for Emotion Recognition and we propose three different levels of feature representations. Low-level feature through a Bag of Visual Word model, mid-level feature through Sparse Representation and hierarchical features through a Deep Learning based method. The objective of doing this is to find the most effective and efficient representation that contains distinctive information of expressions and that overcomes various challenges coming from: 1) intrinsic factors such as appearance and expressiveness variability and 2) extrinsic factors such as illumination, pose, scale and imaging parameters, e.g., resolution, focus, imaging, noise. Then, we incorporate the time dimension to extract spatio-temporal features with the objective to describe subtle feature deformations to discriminate ambiguous classes.Second, we direct our research toward transfer learning, where we aim at Adapting Facial Expression Category Models to New Domains and Tasks. Thus we study domain adaptation and zero shot learning for developing a method that solves the two tasks jointly. Our method is suitable for unlabelled target datasets coming from different data distributions than the source domain and for unlabelled target datasets with different label distributions but sharing the same context as the source domain. Therefore, to permit knowledge transfer between domains and tasks, we use Euclidean learning and Convolutional Neural Networks to design a mapping function that map the visual information coming from facial expressions into a semantic space coming from a Natural Language model that encodes the visual attribute description or use the label information. The consistency between the two subspaces is maximized by aligning them using the visual feature distribution.Third, we study Micro Facial Expression Detection. We propose an algorithm to spot micro-expression segments including the onset and offset frames and to spatially pinpoint in each image space the regions involved in the micro-facial muscle movements. The problem is formulated into Anomaly Detection due to the fact that micro-expressions occur infrequently and thus leading to few data generation compared to natural facial behaviours. In this manner, first, we propose a deep Recurrent Convolutional Auto-Encoder to capture spatial and motion feature changes of natural facial behaviours. Then, a statistical based model for estimating the probability density function of normal facial behaviours while associating a discriminating score to spot micro-expressions is learned based on a Gaussian Mixture Model. Finally, an adaptive thresholding technique for identifying micro expressions from natural facial behaviour is proposed.Our algorithms are tested over deliberate and spontaneous facial expression benchmarks

Gli stili APA, Harvard, Vancouver, ISO e altri

5

Ouzar, Yassine. "Reconnaissance automatique sans contact de l'état affectif de la personne par fusion physio-visuelle à partir de vidéo du visage". Electronic Thesis or Diss., Université de Lorraine, 2023. http://www.theses.fr/2023LORR0076.

Testo completo

Abstract (sommario):

La reconnaissance automatique de l'état affectif reste un sujet difficile en raison de la complexité des émotions / stress, qui impliquent des éléments expérientiels, comportementaux et physiologiques. Comme il est difficile de décrire l'état affectif de la personne de manière exhaustive en termes de modalités uniques, des études récentes se sont concentrées sur des stratégies de fusion afin d'exploiter la complémentarité des signaux multimodaux. L'objectif principal de cette thèse consiste à étudier la faisabilité d'une fusion physio-visuelle pour la reconnaissance automatique de l'état affectif de la personne (émotions / stress) à partir des vidéos du visage. La fusion des expressions faciales et des signaux physiologiques permet de tirer les avantages de chaque modalité. Les expressions faciales sont simple à acquérir et permettent d'avoir une vision externe de l'état affectif, tandis que les signaux physiologiques permettent d'améliorer la fiabilité et relever le problème des expressions faciales contrefaites. Les recherches développées dans cette thèse se situent à l'intersection de l'intelligence artificielle, l'informatique affective ainsi que l'ingénierie biomédicale. Notre contribution s'axe sur deux aspects. Nous proposons en premier lieu une nouvelle approche bout-en-bout permettant d'estimer la fréquence cardiaque à partir d'enregistrements vidéo du visage à l'aide du principe de photopléthysmographie par imagerie (iPPG). La méthode repose sur un réseau spatio-temporel profond (X-iPPGNet) qui apprend le concept d'iPPG à partir de zéro, sans incorporer de connaissances préalables ni passer par l'extraction manuelle des signaux iPPG. Le seconde aspect porte sur une chaine de traitement physio-visuelle pour la reconnaissance automatique des émotions spontanées et du stress à partir des vidéos du visage. Le modèle proposé comprend deux étages permettant d'extraire les caractéristiques de chaque modalité. Le pipeline physiologique est commun au système de reconnaissance d'émotion et celui du stress. Il est basé sur MTTS-CAN, une méthode récente d'estimation du signal iPPG. Deux modèles neuronaux distincts ont été utilisés pour prédire les émotions et le stress de la personne à partir des informations visuelles contenues dans la vidéo (e.g. expressions faciales) : un réseau spatio-temporel combinant le module Squeeze-Excitation et l'architecture Xception pour estimer l'état émotionnel et une approche d'apprentissage par transfert pour l'estimation du niveau de stress. Cette approche a été privilégiée afin de réduire les efforts de développement et surmonter le problème du manque de données. Une fusion des caractéristiques physiologiques et des expressions faciales est ensuite effectuée pour prédire les états émotionnels ou de stress
Human affective state recognition remains a challenging topic due to the complexity of emotions, which involves experiential, behavioral, and physiological elements. Since it is difficult to comprehensively describe emotion in terms of single modalities, recent studies have focused on artificial intelligence approaches and fusion strategy to exploit the complementarity of multimodal signals using artificial intelligence approaches. The main objective is to study the feasibility of a physio-visual fusion for the recognition of the affective state of the person (emotions/stress) from facial videos. The fusion of facial expressions and physiological signals allows to take advantage of each modality. Facial expressions are easy to acquire and provide an external view of the affective state, while physiological signals improve reliability and address the problem of falsified facial expressions. The research developed in this thesis lies at the intersection of artificial intelligence, affective computing, and biomedical engineering. Our contribution focuses on two points. First, we propose a new end-to-end approach for instantaneous pulse rate estimation directly from facial video recordings using the principle of imaging photoplethysmography (iPPG). This method is based on a deep spatio-temporal network (X-iPPGNet) that learns the iPPG concept from scratch, without incorporating prior knowledge or going through manual iPPG signal extraction. The second contribution focuses on a physio-visual fusion for spontaneous emotions and stress recognition from facial videos. The proposed model includes two pipelines to extract the features of each modality. The physiological pipeline is common to both the emotion and stress recognition systems. It is based on MTTS-CAN, a recent method for estimating the iPPG signal, while two distinct neural models were used to predict the person's emotions and stress from the visual information contained in the video (e.g. facial expressions): a spatio-temporal network combining the Squeeze-Excitation module and the Xception architecture for estimating the emotional state and a transfer learning approach for estimating the stress level. This approach reduces development effort and overcomes the lack of data. A fusion of physiological and facial features is then performed to predict the emotional or stress states

Gli stili APA, Harvard, Vancouver, ISO e altri

6

Alashkar, Taleb. "3D dynamic facial sequences analysis for face recognition and emotion detection". Thesis, Lille 1, 2015. http://www.theses.fr/2015LIL10109/document.

Testo completo

Abstract (sommario):

L’étude menée dans le cadre de cette thèse vise l’étude du rôle de la dynamique de formes faciales 3D à révéler l’identité des personnes et leurs états émotionnels. Pour se faire, nous avons proposé un cadre géométrique pour l’étude des formes faciales 3D et leurs dynamiques dans le temps. Une séquence 3D est d’abord divisée en courtes sous-séquences, puis chacune des sous-séquences obtenues est représentée dans une variété de Grassmann (ensemble des sous-espaces linéaires de dimension fixe). Nous avons exploité la géométrie de ces variétés pour comparer des sous-séquences 3D, calculer des statistiques (telles que des moyennes) et quantifier la divergence entre des éléments d’une même variété Grassmannienne. Nous avons aussi proposé deux représentations possibles pour les deux applications cibles – (1) la première est basée sur les dictionnaires (de sous-espaces) associée à des techniques de Dictionary Learning Sparse Coding pour la reconnaissance d’identité et (2) le représentation par des trajectoires paramétrées par le temps sur les Grassmanniennes couplée avec une variante de l’algorithme de classification SVM, permettant un apprentissage avec des données partielles, pour la détection précoce des émotions spontanée. Les expérimentations réalisées sur les bases publiques BU-4DFE, Cam3D et BP4D-Spontaneous montrent à la fois l’intérêt du cadre géométrique proposé (en terme de temps de calcul et de robustesse au bruit et aux données manquantes) et les représentations adoptées (dictionnaires pour la reconnaissance d’identité et trajectoires pour la détection précoce des émotions spontanées)
In this thesis, we have investigated the problems of identity recognition and emotion detection from facial 3D shapes animations (called 4D faces). In particular, we have studied the role of facial (shapes) dynamics in revealing the human identity and their exhibited spontaneous emotion. To this end, we have adopted a comprehensive geometric framework for the purpose of analyzing 3D faces and their dynamics across time. That is, a sequence of 3D faces is first split to an indexed collection of short-term sub-sequences that are represented as matrix (subspace) which define a special matrix manifold called, Grassmann manifold (set of k-dimensional linear subspaces). The geometry of the underlying space is used to effectively compare the 3D sub-sequences, compute statistical summaries (e.g. sample mean, etc.) and quantify densely the divergence between subspaces. Two different representations have been proposed to address the problems of face recognition and emotion detection. They are respectively (1) a dictionary (of subspaces) representation associated to Dictionary Learning and Sparse Coding techniques and (2) a time-parameterized curve (trajectory) representation on the underlying space associated with the Structured-Output SVM classifier for early emotion detection. Experimental evaluations conducted on publicly available BU-4DFE, BU4D-Spontaneous and Cam3D Kinect datasets illustrate the effectiveness of these representations and the algorithmic solutions for identity recognition and emotion detection proposed in this thesis

Gli stili APA, Harvard, Vancouver, ISO e altri

7

Moufidi, Abderrazzaq. "Machine Learning-Based Multimodal integration for Short Utterance-Based Biometrics Identification and Engagement Detection". Electronic Thesis or Diss., Angers, 2024. http://www.theses.fr/2024ANGE0026.

Testo completo

Abstract (sommario):

Le progrès rapide et la démocratisation de la technologie ont conduit à l’abondance des capteurs. Par conséquent, l’intégration de ces diverses modalités pourrait présenter un avantage considérable pour de nombreuses applications dans la vie réelle, telles que la reconnaissance biométrique ou la détection d’engagement des élèves. Dans le domaine de la multimodalité, les chercheurs ont établi des architectures variées de fusion, allant des approches de fusion précoce, hybride et tardive. Cependant, ces architectures peuvent avoir des limites en ce qui concerne des signaux temporels d’une durée courte, ce qui nécessite un changement de paradigme vers le développement de techniques d’apprentissage automatique multimodales qui promettent une précision et une efficacité pour l’analyse de ces données courtes. Dans cette thèse, nous nous appuyons sur l’intégration de la multimodalité pour relever les défis précédents, allant de l’identification biométrique supervisée à la détection non supervisée de l’engagement des étudiants. La première contribution de ce doctorat porte sur l’intégration de la Wavelet Scattering Transform à plusieurs couches avec une architecture profonde appelée x-vectors, grâce à laquelle nous avons amélioré la performance de l’identification du locuteur dans des scénarios impliquant des énoncés courts tout en réduisant le nombre de paramètres nécessaires à l’entraînement. En s’appuyant sur les avantages de la multimodalité, on a proposé une architecture de fusion tardive combinant des vidéos de la profondeur des lèvres et des signaux audios a permis d’améliorer la précision de l’identification dans le cas d’énoncés courts, en utilisant des méthodes efficaces et moins coûteuses pour extraire des caractéristiques spatio-temporelles. Dans le domaine des défis biométriques, il y a la menace de l’émergence des "deepfakes". Ainsi, nous nous sommes concentrés sur l’élaboration d’une méthode de détection des "deepfakes" basée sur des méthodes mathématiques compréhensibles et sur une version finement ajustée de notre précédente fusion tardive appliquée aux vidéos RVB des lèvres et aux audios. En utilisant des méthodes de détection d’anomalies conçues spécifiquement pour les modalités audio et visuelles, l’étude a démontré des capacités de détection robustes dans divers ensembles de données et conditions, soulignant l’importance des approches multimodales pour contrer l’évolution des techniques de deepfake. S’étendant aux contextes éducatifs, la thèse explore la détection multimodale de l’engagement des étudiants dans une classe. En utilisant des capteurs abordables pour acquérir les signaux du rythme cardiaque et les expressions faciales, l’étude a développé un ensemble de données reproductibles et un plan pour identifier des moments significatifs, tout en tenant compte des nuances culturelles. L’analyse des expressions faciales à l’aide de Vision Transformer (ViT) fusionnée avec le traitement des signaux de fréquence cardiaque, validée par des observations d’experts, a mis en évidence le potentiel du suivi des élèves afin d’améliorer la qualité d’enseignement
The rapid advancement and democratization of technology have led to an abundance of sensors. Consequently, the integration of these diverse modalities presents an advantage for numerous real-life applications, such as biometrics recognition and engage ment detection. In the field of multimodality, researchers have developed various fusion ar chitectures, ranging from early, hybrid, to late fusion approaches. However, these architec tures may have limitations involving short utterances and brief video segments, necessi tating a paradigm shift towards the development of multimodal machine learning techniques that promise precision and efficiency for short-duration data analysis. In this thesis, we lean on integration of multimodality to tackle these previous challenges ranging from supervised biometrics identification to unsupervised student engagement detection. This PhD began with the first contribution on the integration of multiscale Wavelet Scattering Transform with x-vectors architecture, through which we enhanced the accuracy of speaker identification in scenarios involving short utterances. Going through multimodality benefits, a late fusion architecture combining lips depth videos and audio signals further improved identification accuracy under short utterances, utilizing an effective and less computational methods to extract spatiotemporal features. In the realm of biometrics challenges, there is the threat emergence of deepfakes. There-fore, we focalized on elaborating a deepfake detection methods based on, shallow learning and a fine-tuned architecture of our previous late fusion architecture applied on RGB lips videos and audios. By employing hand-crafted anomaly detection methods for both audio and visual modalities, the study demonstrated robust detection capabilities across various datasets and conditions, emphasizing the importance of multimodal approaches in countering evolving deepfake techniques. Expanding to educational contexts, the dissertation explores multimodal student engagement detection in classrooms. Using low-cost sensors to capture Heart Rate signals and facial expressions, the study developed a reproducible dataset and pipeline for identifying significant moments, accounting for cultural nuances. The analysis of facial expressions using Vision Transformer (ViT) fused with heart rate signal processing, validated through expert observations, showcased the potential for real-time monitoring to enhance educational outcomes through timely interventions

Gli stili APA, Harvard, Vancouver, ISO e altri

8

Allaert, Benjamin. "Analyse des expressions faciales dans un flux vidéo". Thesis, Lille 1, 2018. http://www.theses.fr/2018LIL1I021/document.

Testo completo

Abstract (sommario):

De nos jours, dans des domaines tels que la sécurité et la santé, une forte demande consiste à pouvoir analyser le comportement des personnes en s'appuyant notamment sur l'analyse faciale. Dans cette thèse, nous explorons de nouvelles approches à destination de systèmes d’acquisition peu contraints. Plus spécifiquement, nous nous intéressons à l'analyse des expressions faciales en présence de variation d'intensité et de variations de pose du visage. Notre première contribution s'intéresse à la caractérisation précise des variations d'intensité des expressions faciales. Nous proposons un descripteur innovant appelé LMP qui s'appuie sur les propriétés physiques déformables du visage afin de conserver uniquement les directions principales du mouvement facial induit par les expressions. La particularité principale de notre travail est de pouvoir caractériser à la fois les micro et les macro expressions, en utilisant le même système d'analyse. Notre deuxième contribution concerne la prise en compte des variations de pose. Souvent, une étape de normalisation est employée afin d'obtenir une invariance aux transformations géométriques. Cependant, ces méthodes sont utilisées sans connaître leur impact sur les expressions faciales. Pour cela, nous proposons un système d'acquisition innovant appelé SNaP-2DFe. Ce système permet de capturer simultanément un visage dans un plan fixe et dans un plan mobile. Grâce à cela, nous fournissons une connaissance du visage à reconstruire malgré les occultations induites par les rotations de la tête. Nous montrons que les récentes méthodes de normalisation ne sont pas parfaitement adaptées pour l'analyse des expressions faciales
Facial expression recognition has attracted great interest over the past decade in wide application areas, such as human behavior analysis, e-health and marketing. In this thesis we explore a new approach to step forward towards in-the-wild expression recognition. Special attention has been paid to encode respectively small/large facial expression amplitudes, and to analyze facial expressions in presence of varying head pose. The first challenge addressed concerns varying facial expression amplitudes. We propose an innovative motion descriptor called LMP. This descriptor takes into account mechanical facial skin deformation properties. When extracting motion information from the face, the unified approach deals with inconsistencies and noise, caused by face characteristics. The main originality of our approach is a unified approach for both micro and macro expression recognition, with the same facial recognition framework. The second challenge addressed concerns important head pose variations. In facial expression analysis, the face registration step must ensure that minimal deformation appears. Registration techniques must be used with care in presence of unconstrained head pose as facial texture transformations apply. Hence, it is valuable to estimate the impact of alignment-related induced noise on the global recognition performance. For this, we propose a new database, called SNaP-2DFe, allowing to study the impact of head pose and intra-facial occlusions on expression recognition approaches. We prove that the usage of face registration approach does not seem adequate for preserving the features encoding facial expression deformations

Gli stili APA, Harvard, Vancouver, ISO e altri

9

Deramgozin, Mohammadmahdi. "Développement de modèles de reconnaissance des expressions faciales à base d’apprentissage profond pour les applications embarquées". Electronic Thesis or Diss., Université de Lorraine, 2023. http://www.theses.fr/2023LORR0286.

Testo completo

Abstract (sommario):

Le domaine de la Reconnaissance des Émotions Faciales (FER) est est d'une importance capitale pour faire progresser les interactions homme-machine et trouve sa place dans de nombreuses applications comme par exemple le domaine de la santé pour traiter la dépression et l'anxiété. En utilisant des Réseaux Neuronaux Convolutifs (CNN), cette thèse présente une série de modèles visant à optimiser la détection et l'interprétation des émotions. Le modèle initial présenté dans cette thèse est de faible complexité et économe en ressources lui permettant de rivaliser favorablement avec les solutions de l'état de l'art sur un nombre limité de jeux de données, ce qui en fait une bonne base pour les systèmes à ressources limitées. Pour identifier et capturer toute la complexité et l'ambiguïté des émotions humaines, ce modèle initial est amélioré en intégrant les Unités d'Action faciales (AU). Cette approche affine non seulement la détection des émotions mais fournit également une interprétabilité des décisions fournies par le modèle en identifiant des AU spécifiques liées à chaque émotion. Une amélioration significative est atteinte en introduisant des mécanismes d'attention neuronale—à la fois spatiaux et par canal— au modèle initial. Ainsi, le modèle basé sur ces mécanismes d'attention se focalise uniquement sur les caractéristiques faciales les plus saillantes. Cela permet au modèle CNN de s'adapter bien aux scénarios du monde réel, tels que des expressions faciales partiellement obscurcies ou subtiles. La thèse aboutit à un modèle CNN optimisé et efficace en termes de calcul et d'empreinte mémoire, le rendant parfaitement adapté pour les environnements à ressources limitées comme les systèmes embarqués. Tout en fournissant une solution robuste pour la FER, des perspectives et voies pour des travaux futurs, tels que des applications en temps réel et des techniques avancées pour l'interprétabilité du modèle, sont également identifiées
The field of Facial Emotion Recognition (FER) is pivotal in advancing human-machine interactions and finds essential applications in healthcare for conditions like depression and anxiety. Leveraging Convolutional Neural Networks (CNNs), this thesis presents a progression of models aimed at optimizing emotion detection and interpretation. The initial model is resource-frugal but competes favorably with state-of-the-art solutions, making it a strong candidate for embedded systems constrained in computational and memory resources. To capture the complexity and ambiguity of human emotions, the research work presented in this thesis enhances this CNN-based foundational model by incorporating facial Action Units (AUs). This approach not only refines emotion detection but also provides interpretability by identifying specific AUs tied to each emotion. Further sophistication is achieved by introducing neural attention mechanisms—both spatial and channel-based—improving the model's focus on salient facial features. This makes the CNN-based model adapted well to real-world scenarios, such as partially obscured or subtle facial expressions. Based on the previous results, in this thesis we propose finally an optimized, yet computationally efficient, CNN model that is ideal for resource-limited environments like embedded systems. While it provides a robust solution for FER, this research also identifies perspectives for future work, such as real-time applications and advanced techniques for model interpretability

Gli stili APA, Harvard, Vancouver, ISO e altri

10

Ruiz, hernandez John alexander. "Analyse faciale avec dérivées Gaussiennes". Phd thesis, Université de Grenoble, 2011. http://tel.archives-ouvertes.fr/tel-00646718.

Testo completo

Abstract (sommario):

Dans cette thèse, nous explorons l'utilisation des dérivées Gaussiennes multi-échelles comme représentation initiale pour la détection, la reconnaissance et la classification des visages humains dans des images. Nous montrons qu'un algorithme rapide, $O(N)$, de construction d'une pyramide binomiale peut être utilisé pour extraire des dérivées Gaussiennes avec une réponse impulsionnelle identique à un facteur d'échelle $sqrt{2}$>. Nous montrons ensuite qu'un vecteur composé de ces dérivées à différentes échelles et à différents ordres en chaque pixel peut être utilisé comme base pour les algorithmes de détection, de classification et de reconnaissance lesquels atteignent ou dépassent les performances de l'état de l'art avec un coût de calcul réduit. De plus l'utilisation de coefficients entiers, avec une complexité de calcul et des exigences mémoires en $O(N)$ font qu'une telle approche est appropriée pour des applications temps réel embarquées sur des systèmes mobiles. Nous testons cette représentation en utilisant trois problèmes classiques d'analyse d'images faciales : détection de visages, reconnaissance de visages et estimation de l'âge. Pour la détection de visages, nous examinons les dérivées Gaussiennes multi-échelles comme une alternative aux ondelettes de Haar pour une utilisation dans la construction d'une cascade de classifieurs linéaires appris avec l'algorithme Adaboost, popularisé par Viola and Jones. Nous montrons que la représentation pyramidale peut être utilisée pour optimiser le processus de détection en adaptant la position des dérivées dans la cascade. Dans ces experiences nous sommes capables de montrer que nous pouvons obtenir des niveaux de performances de détection similaires (mesurés par des courbes ROC) avec une réduction importante du coût de calcul. Pour la reconnaissance de visages et l'estimation de l'âge, nous montrons que les dérivées Gaussiennes multi-échelles peuvent être utilisées pour calculer une représentation tensorielle qui conserve l'information faciale la plus importante. Nous montrons que combinée à l'Analyse Multilinéaire en Composantes Principales et à la méthode Kernel Discriminative Common Vectors (KDCV), cette représentation tensorielle peut mener à un algorithme qui est similaire aux techniques concurrentes pour la reconnaissance de visages avec un coût de calcul réduit. Pour l'estimation de l'âge à partir d'images faciales, nous montrons que notre représentation tensorielle utilisant les dérivées de Gaussiennes multi-échelles peut être utilisée avec une machine à vecteur de pertinence pour fournir une estimation de l'âge avec des niveaux de performances similaires aux méthodes de l'état de l'art.

Gli stili APA, Harvard, Vancouver, ISO e altri

11

Ruiz, Hernandez John Alexander. "Analyse faciale avec dérivées Gaussiennes". Thesis, Grenoble, 2011. http://www.theses.fr/2011GRENM039/document.

Testo completo

Abstract (sommario):

Dans cette thèse, nous explorons l'utilisation des dérivées Gaussiennes multi-échelles comme représentation initiale pour la détection, la reconnaissance et la classification des visages humains dans des images. Nous montrons qu'un algorithme rapide, $O(N)$, de construction d'une pyramide binomiale peut être utilisé pour extraire des dérivées Gaussiennes avec une réponse impulsionnelle identique à un facteur d'échelle $sqrt{2}$>. Nous montrons ensuite qu'un vecteur composé de ces dérivées à différentes échelles et à différents ordres en chaque pixel peut être utilisé comme base pour les algorithmes de détection, de classification et de reconnaissance lesquels atteignent ou dépassent les performances de l'état de l'art avec un coût de calcul réduit. De plus l'utilisation de coefficients entiers, avec une complexité de calcul et des exigences mémoires en $O(N)$ font qu'une telle approche est appropriée pour des applications temps réel embarquées sur des systèmes mobiles. Nous testons cette représentation en utilisant trois problèmes classiques d'analyse d'images faciales : détection de visages, reconnaissance de visages et estimation de l'âge. Pour la détection de visages, nous examinons les dérivées Gaussiennes multi-échelles comme une alternative aux ondelettes de Haar pour une utilisation dans la construction d'une cascade de classifieurs linéaires appris avec l'algorithme Adaboost, popularisé par Viola and Jones. Nous montrons que la représentation pyramidale peut être utilisée pour optimiser le processus de détection en adaptant la position des dérivées dans la cascade. Dans ces experiences nous sommes capables de montrer que nous pouvons obtenir des niveaux de performances de détection similaires (mesurés par des courbes ROC) avec une réduction importante du coût de calcul. Pour la reconnaissance de visages et l'estimation de l'âge, nous montrons que les dérivées Gaussiennes multi-échelles peuvent être utilisées pour calculer une représentation tensorielle qui conserve l'information faciale la plus importante. Nous montrons que combinée à l'Analyse Multilinéaire en Composantes Principales et à la méthode Kernel Discriminative Common Vectors (KDCV), cette représentation tensorielle peut mener à un algorithme qui est similaire aux techniques concurrentes pour la reconnaissance de visages avec un coût de calcul réduit. Pour l'estimation de l'âge à partir d'images faciales, nous montrons que notre représentation tensorielle utilisant les dérivées de Gaussiennes multi-échelles peut être utilisée avec une machine à vecteur de pertinence pour fournir une estimation de l'âge avec des niveaux de performances similaires aux méthodes de l'état de l'art
In this thesis, we propose to modelize facial images using Gaussian Derivatives computed with a Half-Octave Gaussian Pyramid. In this scope, Gaussian derivatives have shown a high versatility in object recognition and image analysis, nevertheless there is not a considerable number of proposed aproaches in the state-of-the-art that uses Gaussian derivatives for extracting important information from facial images. Motivated by the above mentioned and the high amount of applications in facial analysis, security systems and Biometry, in this thesis as a first time, we propose to use an unique image representation, the Gaussian Scale Space computed with a half octave pyramid. We show in this thesis that this image representation could be used to perform different tasks in facial analysis without lost of performance compared with other approaches in the state-of-the-art that uses more complicated image representations. it is also well know that using an unique image represenation could be convenient in real world applications where the amount of memory capacity is limitated by hardware constraints. To demostrate our assumptations we solve three different tasks in facial analysis: Face detection, Face recognition and Age estimation. In face detection we propose to use a cascade of classifiers using Gaussian derivatives. Specifically we propose to use Gaussian derivatives up to the fourth order, in effect experiemnts using different derivatives orders have shown that fourth order Gaussian derivatives provide important information in face detection and recognition. In adition, to improve the speed of detection using Gaussian derivatives, we develope a new cascade architecture which considerates the computational cost of each Gaussian derivative order to chose its best position in the cascade. Finally, to solve the face recognition and age estimation problems, we propose a tensorial model based in Gaussian derivatives. This tensorial model preserves the 3-D structure of feature space and it does not break the natural structure of data when a vectorization process is applied. Each one of the methods proposed in the thesis are discused and validated with a set of well defined experiments. All our results are compared with the last state-of-the-art results in face detection, recognition and age estimation, giving comparable or superior results

Gli stili APA, Harvard, Vancouver, ISO e altri

12

Grossard, Charline. "Evaluation et rééducation des expressions faciales émotionnelles chez l’enfant avec TSA : le projet JEMImE Serious games to teach social interactions and emotions to individuals with autism spectrum disorders (ASD) Children facial expression production : influence of age, gender, emotion subtype, elicitation condition and culture". Thesis, Sorbonne université, 2019. http://www.theses.fr/2019SORUS625.

Testo completo

Abstract (sommario):

Le trouble du Spectre de l’Autisme (TSA) est caractérisé par des difficultés concernant les habiletés sociales dont l’utilisation des expressions faciales émotionnelles (EFE). Si de nombreuses études s’intéressent à leur reconnaissance, peu évaluent leur production chez l’enfant typique et avec TSA. Les nouvelles technologies sont plébiscitées pour travailler les habiletés sociales auprès des enfants avec TSA, or, peu d’études concernent leur utilisation pour le travail de la production des EFE. Au début de ce projet, nous retrouvions seulement 4 jeux la travaillant. Notre objectif a été la création du jeu sérieux JEMImE travaillant la production des EFE chez l’enfant avec TSA grâce à un feedback automatisé. Nous avons d’abord constitué une base de données d’EFE d’enfants typiques et avec TSA pour créer un algorithme de reconnaissance des EFE et étudier leurs compétences de production. Plusieurs facteurs les influencent comme l’âge, le type d’émotion, la culture. Les EFE des enfants avec TSA sont jugées de moins bonne qualité par des juges humains et par l’algorithme de reconnaissance des EFE qui a besoin de plus de points repères sur leurs visages pour classer leurs EFE. L’algorithme ensuite intégré dans JEMImE donne un retour visuel en temps réel à l’enfant pour corriger ses productions. Une étude pilote auprès de 23 enfants avec TSA met en avant une bonne adaptation des enfants aux retours de l’algorithme ainsi qu’une bonne expérience dans l’utilisation du jeu. Ces résultats prometteurs ouvrent la voie à un développement plus poussé du jeu pour augmenter le temps de jeu et ainsi évaluer l’effet de cet entraînement sur la production des EFE chez les enfants avec TSA
The autism spectrum disorder (ASD) is characterized by difficulties in socials skills, as emotion recognition and production. Several studies focused on emotional facial expressions (EFE) recognition, but few worked on its production, either in typical children or in children with ASD. Nowadays, information and communication technologies are used to work on social skills in ASD but few studies using these technologies focus on EFE production. After a literature review, we found only 4 games regarding EFE production. Our final goal was to create the serious game JEMImE to work on EFE production with children with ASD using an automatic feedback. We first created a dataset of EFE of typical children and children with ASD to train an EFE recognition algorithm and to study their production skills. Several factors modulate them, such as age, type of emotion or culture. We observed that human judges and the algorithm assess the quality of the EFE of children with ASD as poorer than the EFE of typical children. Also, the EFE recognition algorithm needs more features to classify their EFE. We then integrated the algorithm in JEMImE to give the child a visual feedback in real time to correct his/her productions. A pilot study including 23 children with ASD showed that children are able to adapt their productions thanks to the feedback given by the algorithm and illustrated an overall good subjective experience with JEMImE. The beta version of JEMImE shows promising potential and encourages further development of the game in order to offer longer game exposure to children with ASD and so allow a reliable assessment of the effect of this training on their production of EFE

Gli stili APA, Harvard, Vancouver, ISO e altri

13

Maalej, Ahmed. "3D Facial Expressions Recognition Using Shape Analysis and Machine Learning". Thesis, Lille 1, 2012. http://www.theses.fr/2012LIL10025/document.

Testo completo

Abstract (sommario):

La reconnaissance des expressions faciales est une tâche difficile, qui a reçu un intérêt croissant au sein de la communauté des chercheurs, et qui impacte les applications dans des domaines liés à l'interaction homme-machine (IHM). Dans le but de construire des systèmes IHM approchant le comportement humain et émotionnellement intelligents, les scientifiques essaient d'introduire la composante émotionnelle dans ce type de systèmes. Le développement récent des capteurs d'acquisition 3D a fait que les données 3D deviennent de plus en plus disponibles, et ce type de données vient pour remédier à des problèmes inhérents aux données 2D tels que les variations d'éclairage, de pose et d'échelle et de faible résolution. Plusieurs bases de données 3D du visage sont publiquement disponibles pour les chercheurs dans le domaine de la reconnaissance d'expression faciale leur permettant ainsi de valider et d'évaluer leurs approches. Cette thèse traite le problème la reconnaissance d'expression faciale et propose une approche basée sur l'analyse de forme pour la reconnaissance d'expression dans un cadre statique (relatif à une seule image) et dynamique (relatif à une séquence vidéo). Tout d'abord, une représentation du modèle 3D du visage basée sur les courbes est proposée pour décrire les traits du visage. Puis, une fois ces courbes sont extraites, l'information de forme qui leur est liée est quantifiée en utilisant un cadre de travail basé sur la géométrie Riemannienne. Nous obtenons, par la suite, des scores de similarité entre les différentes formes locales du visage. Nous constituons, alors, un vecteur de caractéristiques associées à chaque surface faciale. Ensuite, ces caractéristiques sont utilisées comme paramètres d'entrée à des algorithmes d'apprentissage automatique et de classification pour la reconnaissance d'expressions. Des expérimentations exhaustives sont alors entreprises pour valider notre approche et des résultats sont présentés et comparés aux résultats des travaux de l'état de l'art
Facial expression recognition is a challenging task, which has received growing interest within the research community, impacting important applications in fields related to human machine interaction (HMI). Toward building human-like emotionally intelligent HMI devices, scientists are trying to include the essence of human emotional state in such systems. The recent development of 3D acquisition sensors has made 3D data more available, and this kind of data comes to alleviate the problems inherent in 2D data such as illumination, pose and scale variations as well as low resolution. Several 3D facial databases are publicly available for the researchers in the field of face and facial expression recognition to validate and evaluate their approaches. This thesis deals with facial expression recognition (FER) problem and proposes an approach based on shape analysis to handle both static and dynamic FER tasks. Our approach includes the following steps: first, a curve-based representation of the 3D face model is proposed to describe facial features. Then, once these curves are extracted, their shape information is quantified using a Riemannain framework. We end up with similarity scores between different facial local shapes constituting feature vectors associated with each facial surface. Afterwards, these features are used as entry parameters to some machine learning and classification algorithms to recognize expressions. Exhaustive experiments are derived to validate our approach and results are presented and compared to the related work achievements

Gli stili APA, Harvard, Vancouver, ISO e altri

14

Baccouche, Moez. "Apprentissage neuronal de caractéristiques spatio-temporelles pour la classification automatique de séquences vidéo". Phd thesis, INSA de Lyon, 2013. http://tel.archives-ouvertes.fr/tel-00932662.

Testo completo

Abstract (sommario):

Cette thèse s'intéresse à la problématique de la classification automatique des séquences vidéo. L'idée est de se démarquer de la méthodologie dominante qui se base sur l'utilisation de caractéristiques conçues manuellement, et de proposer des modèles qui soient les plus génériques possibles et indépendants du domaine. Ceci est fait en automatisant la phase d'extraction des caractéristiques, qui sont dans notre cas générées par apprentissage à partir d'exemples, sans aucune connaissance a priori. Nous nous appuyons pour ce faire sur des travaux existants sur les modèles neuronaux pour la reconnaissance d'objets dans les images fixes, et nous étudions leur extension au cas de la vidéo. Plus concrètement, nous proposons deux modèles d'apprentissage des caractéristiques spatio-temporelles pour la classification vidéo : (i) Un modèle d'apprentissage supervisé profond, qui peut être vu comme une extension des modèles ConvNets au cas de la vidéo, et (ii) Un modèle d'apprentissage non supervisé, qui se base sur un schéma d'auto-encodage, et sur une représentation parcimonieuse sur-complète des données. Outre les originalités liées à chacune de ces deux approches, une contribution supplémentaire de cette thèse est une étude comparative entre plusieurs modèles de classification de séquences parmi les plus populaires de l'état de l'art. Cette étude a été réalisée en se basant sur des caractéristiques manuelles adaptées à la problématique de la reconnaissance d'actions dans les vidéos de football. Ceci a permis d'identifier le modèle de classification le plus performant (un réseau de neurone récurrent bidirectionnel à longue mémoire à court-terme -BLSTM-), et de justifier son utilisation pour le reste des expérimentations. Enfin, afin de valider la généricité des deux modèles proposés, ceux-ci ont été évalués sur deux problématiques différentes, à savoir la reconnaissance d'actions humaines (sur la base KTH), et la reconnaissance d'expressions faciales (sur la base GEMEP-FERA). L'étude des résultats a permis de valider les approches, et de montrer qu'elles obtiennent des performances parmi les meilleures de l'état de l'art (avec 95,83% de bonne reconnaissance pour la base KTH, et 87,57% pour la base GEMEP-FERA).

Gli stili APA, Harvard, Vancouver, ISO e altri

15

Yang, Yu-Fang. "Contribution des caractéristiques diagnostiques dans la reconnaissance des expressions faciales émotionnelles : une approche neurocognitive alliant oculométrie et électroencéphalographie". Thesis, Université Paris-Saclay (ComUE), 2018. http://www.theses.fr/2018SACLS099/document.

Testo completo

Abstract (sommario):

La reconnaissance experte de l'expression faciale est cruciale pour l'interaction et la communication sociale. Le comportement, les potentiels évoqués (ERP), et les techniques d’oculométrie peuvent être utilisés pour étudier les mécanismes cérébraux qui participent au traitement visuel automatique. La reconnaissance d'expressions faciales implique non seulement l'extraction d'informations à partir de caractéristiques faciales diagnostiques, stratégie qualifiée de traitement local, mais aussi l'intégration d'informations globales impliquant des traitements configuraux. Des nombreuses recherches concernant le traitement des informations faciales émotionnelles il apparaît que l’interaction des traitements locaux et configuraux pour la reconnaissance des émotions est mal comprise. La complexité inhérente à l'intégration de l'information faciale est mise en lumière lorsque l'on compare la performance de sujets sains et d’individus atteints de schizophrénie, car ces derniers ont tendance à s’attarder sur quelques éléments locaux, parfois peu informatifs. Les différentes façons d'examiner les visages peuvent avoir un impact sur la capacité socio-cognitive de reconnaître les émotions. Pour ces raisons, cette thèse étudie le rôle des caractéristiques diagnostiques et configurales dans la reconnaissance de l'expression faciale. En plus des aspects comportementaux, nous avons donc examiné la dynamique spatiale et temporelle des fixations à l’aide de mesures oculométriques, ainsi que l’activité électrophysiologique précoce considérant plus particulièrement les composantes P100 et N170. Nous avons créé de nouveaux stimuli des esquisses par une transformation numérique de portraits photos en esquisses, pour des visages exprimant colère, tristesse, peur, joie ou neutralité, issus de la base Radboud Faces Database, en supprimant les informations de texture du visage et ne conservant que les caractéristiques diagnostiques (yeux et sourcils, nez, bouche). Ces esquisses altèrent le traitement configural en comparaison avec les visages photographiques, ce qui augmente le traitement des caractéristiques diagnostiques par traitement élémentaire, en contrepartie. La comparaison directe des mesures neurocognitives entre les esquisses et les visages photographiques exprimant des émotions de base n'a jamais été testée, à notre connaissance. Dans cette thèse, nous avons examiné (i) les fixations oculaires en fonction du type de stimulus, (ii) la réponse électrique aux manipulations expérimentales telles que l'inversion et la déconfiguration du visage. Concernant, les résultats comportementaux montrent que les esquisses de visage transmettent suffisamment d'information expressive (compte tenu de la présence des caractéristiques diagnostiques) pour la reconnaissance des émotions en comparaison des visages photographiques. Notons que, comme attendu, il y avait un net avantage de la reconnaissance des émotions pour les expressions heureuses par rapport aux autres émotions. En revanche, reconnaître des visages tristes et en colère était plus difficile. Ayant analysé séparément les fixations successives, les résultats indiquent que les participants ont adopté un traitement plus local des visages croqués et photographiés lors de la deuxième fixation. Néanmoins, l'extraction de l'information des yeux est nécessaire lorsque l'expression transmet des informations émotionnelles plus complexes et lorsque les stimuli sont simplifiés comme dans les esquisses. Les résultats de l’électroencéphalographie suggèrent également que les esquisses ont engendré plus de traitement basé sur les parties. Les éléments transmis par les traits diagnostiques pourraient avoir fait l'objet d'un traitement précoce, probablement dû à des informations de bas niveau durant la fenêtre temporelle de la P100, suivi d'un décodage ultérieur de la structure faciale dans la fenêtre temporelle de la N170
Proficient recognition of facial expression is crucial for social interaction. Behaviour, event-related potentials (ERPs), and eye-tracking techniques can be used to investigate the underlying brain mechanisms supporting this seemingly effortless processing of facial expression. Facial expression recognition involves not only the extraction of expressive information from diagnostic facial features, known as part-based processing, but also the integration of featural information, known as configural processing. Despite the critical role of diagnostic features in emotion recognition and extensive research in this area, it is still not known how the brain decodes configural information in terms of emotion recognition. The complexity of facial information integration becomes evident when comparing performance between healthy subjects and individuals with schizophrenia because those patients tend to process featural information on emotional faces. The different ways in examining faces possibly impact on social-cognitive ability in recognizing emotions. Therefore, this thesis investigates the role of diagnostic features and face configuration in the recognition of facial expression. In addition to behavior, we examined both the spatiotemporal dynamics of fixations using eye-tracking, and early neurocognitive sensitivity to face as indexed by the P100 and N170 ERP components. In order to address the questions, we built a new set of sketch face stimuli by transforming photographed faces from the Radboud Faces Database through the removal of facial texture and retaining only the diagnostic features (e.g., eyes, nose, mouth) with neutral and four facial expressions - anger, sadness, fear, happiness. Sketch faces supposedly impair configural processing in comparison with photographed faces, resulting in increased sensitivity to diagnostic features through part-based processing. The direct comparison of neurocognitive measures between sketch and photographed faces expressing basic emotions has never been tested. In this thesis, we examined (i) eye fixations as a function of stimulus type, and (ii) neuroelectric response to experimental manipulations such face inversion and deconfiguration. The use of these methods aimed to reveal which face processing drives emotion recognition and to establish neurocognitive markers of emotional sketch and photographed faces processing. Overall, the behavioral results showed that sketch faces convey sufficient expressive information (content of diagnostic features) as in photographed faces for emotion recognition. There was a clear emotion recognition advantage for happy expressions as compared to other emotions. In contrast, recognizing sad and angry faces was more difficult. Concomitantly, results of eye-tracking showed that participants employed more part-based processing on sketch and photographed faces during second fixation. The extracting information from the eyes is needed when the expression conveys more complex emotional information and when stimuli are impoverished (e.g., sketch). Using electroencephalographic (EEG), the P100 and N170 components are used to study the effect of stimulus type (sketch, photographed), orientation (inverted, upright), and deconfiguration, and possible interactions. Results also suggest that sketch faces evoked more part-based processing. The cues conveyed by diagnostic features might have been subjected to early processing, likely driven by low-level information during P100 time window, followed by a later decoding of facial structure and its emotional content in the N170 time window. In sum, this thesis helped elucidate elements of the debate about configural and part-based face processing for emotion recognition, and extend our current understanding of the role of diagnostic features and configural information during neurocognitive processing of facial expressions of emotion

Gli stili APA, Harvard, Vancouver, ISO e altri

16

Ballihi, Lahoucine. "Biométrie faciale 3D par apprentissage des caractéristiques géométriques : Application à la reconnaissance des visages et à la classification du genre". Phd thesis, Université des Sciences et Technologie de Lille - Lille I, 2012. http://tel.archives-ouvertes.fr/tel-00726299.

Testo completo

Abstract (sommario):

La biométrie du visage a suscité, ces derniers temps, l'intérêt grandissant de la communauté scientifique et des industriels de la biométrie vue son caractère naturel, sans contact et non-intrusif. Néanmoins, les performances des systèmes basés sur les images 2D sont affectées par différents types de variabilités comme la pose, les conditions d'éclairage, les occultations et les expressions faciales. Avec la disponibilité de caméras 3D capables d'acquérir la forme tridimensionnelle, moins sensibles aux changements d'illumination et de pose, plusieurs travaux de recherche se sont tournés vers l'étude de cette nouvelle modalité. En revanche, d'autres défis apparaissent comme les déformations de la forme faciales causées par les expressions et le temps de calcul que requièrent les approches développées. Cette thèse s'inscrit dans ce paradigme en proposant de coupler la géométrie Riemannienne avec les techniques d'apprentissage pour une biométrie faciale 3D efficace et robuste aux changements d'expressions. Après une étape de pré-traitement, nous proposons de représenter les surfaces faciales par des collections de courbes 3D qui captent localement leurs formes. Nous utilisons un cadre géométrique existant pour obtenir les déformations " optimales " entre les courbes ainsi que les distances les séparant sur une variété Riemannienne (espace des formes des courbes). Nous appliquons, par la suite, des techniques d'apprentissage afin de déterminer les courbes les plus pertinentes pour deux applications de la biométrie du visage : la reconnaissance d'identité et la classification du genre. Les résultats obtenus sur le benchmark de référence FRGC v2 et leurs comparaison avec les travaux de l'état de l'art confirment tout l'intérêt de coupler l'analyse locale de la forme par une approche géométrique (possibilité de calculer des moyennes, etc.) avec des techniques d'apprentissage (Basting, etc.) pour gagner en temps de calcul et en performances.

Gli stili APA, Harvard, Vancouver, ISO e altri

17

Dagnes, Nicole. "3D human face analysis for recognition applications and motion capture". Thesis, Compiègne, 2020. http://www.theses.fr/2020COMP2542.

Testo completo

Abstract (sommario):

Cette thèse se propose comme une étude géométrique de la surface faciale en 3D, dont le but est de fournir un ensemble d'entités, issues du contexte de la géométrie différentielle, à utiliser comme descripteurs faciaux dans les applications d'analyse du visage, comme la reconnaissance faciale et la reconnaissance des expressions faciales. En effet, bien que chaque visage soit unique, tous les visages sont similaires et leurs caractéristiques morphologiques sont les mêmes pour tous les individus. Par conséquent, il est primordial pour l'analyse des visages d'extraire les caractéristiques faciales les plus appropriées. Tous les traits du visage, proposés dans cette étude, sont basés uniquement sur les propriétés géométriques de la surface faciale. En effet, l'objectif final de cette recherche est de démontrer que la géométrie différentielle est un outil complet pour l'analyse des visages et que les caractéristiques géométriques conviennent pour décrire et comparer des visages et, en général, pour extraire des informations pertinentes pour l'analyse faciale dans les différents domaines d'application. Enfin, ce travail se concentre aussi sur l'analyse des troubles musculo-squelettiques en proposant une quantification objective des mouvements du visage pour aider la chirurgie maxillo-faciale et la rééducation des mouvements du visage. Ce travail de recherche explore le système de capture du mouvement 3D, en adoptant la plateforme Technologie, Sport et Santé, située au Centre d'Innovation de l'Université de Technologie de Compiègne, au sein du Laboratoire de Biomécanique et Bioingénierie (BMBI)
This thesis is intended as a geometrical study of the three-dimensional facial surface, whose aim is to provide an application framework of entities coming from Differential Geometry context to use as facial descriptors in face analysis applications, like FR and FER fields. Indeed, although every visage is unique, all faces are similar and their morphological features are the same for all mankind. Hence, it is primary for face analysis to extract suitable features. All the facial features, proposed in this study, are based only on the geometrical properties of the facial surface. Then, these geometrical descriptors and the related entities proposed have been applied in the description of facial surface in pattern recognition contexts. Indeed, the final goal of this research is to prove that Differential Geometry is a comprehensive tool oriented to face analysis and geometrical features are suitable to describe and compare faces and, generally, to extract relevant information for human face analysis in different practical application fields. Finally, since in the last decades face analysis has gained great attention also for clinical application, this work focuses on musculoskeletal disorders analysis by proposing an objective quantification of facial movements for helping maxillofacial surgery and facial motion rehabilitation. At this time, different methods are employed for evaluating facial muscles function. This research work investigates the 3D motion capture system, adopting the Technology, Sport and Health platform, located in the Innovation Centre of the University of Technology of Compiègne, in the Biomechanics and Bioengineering Laboratory (BMBI)

Gli stili APA, Harvard, Vancouver, ISO e altri

18

Peyrard, Clément. "Single image super-resolution based on neural networks for text and face recognition". Thesis, Lyon, 2017. http://www.theses.fr/2017LYSEI083/document.

Testo completo

Abstract (sommario):

Cette thèse porte sur les méthodes de super-résolution (SR) pour l’amélioration des performances des systèmes de reconnaissance automatique (OCR, reconnaissance faciale). Les méthodes de Super-Résolution (SR) permettent de générer des images haute résolution (HR) à partir d’images basse résolution (BR). Contrairement à un rééchantillonage par interpolation, elles restituent les hautes fréquences spatiales et compensent les artéfacts (flou, crénelures). Parmi elles, les méthodes d’apprentissage automatique telles que les réseaux de neurones artificiels permettent d’apprendre et de modéliser la relation entre les images BR et HR à partir d’exemples. Ce travail démontre l’intérêt des méthodes de SR à base de réseaux de neurones pour les systèmes de reconnaissance automatique. Les réseaux de neurones à convolutions sont particulièrement adaptés puisqu’ils peuvent être entraînés à extraire des caractéristiques non-linéaires bidimensionnelles pertinentes tout en apprenant la correspondance entre les espaces BR et HR. Sur des images de type documents, la méthode proposée permet d’améliorer la précision en reconnaissance de caractère de +7.85 points par rapport à une simple interpolation. La création d’une base d’images annotée et l’organisation d’une compétition internationale (ICDAR2015) ont souligné l’intérêt et la pertinence de telles approches. Pour les images de visages, les caractéristiques faciales sont cruciales pour la reconnaissance automatique. Une méthode en deux étapes est proposée dans laquelle la qualité de l’image est d’abord globalement améliorée, pour ensuite se focaliser sur les caractéristiques essentielles grâce à des modèles spécifiques. Les performances d’un système de vérification faciale se trouvent améliorées de +6.91 à +8.15 points. Enfin, pour le traitement d’images BR en conditions réelles, l’utilisation de réseaux de neurones profonds permet d’absorber la variabilité des noyaux de flous caractérisant l’image BR, et produire des images HR ayant des statistiques naturelles sans connaissance du modèle d’observation exact
This thesis is focussed on super-resolution (SR) methods for improving automatic recognition system (Optical Character Recognition, face recognition) in realistic contexts. SR methods allow to generate high resolution images from low resolution ones. Unlike upsampling methods such as interpolation, they restore spatial high frequencies and compensate artefacts such as blur or jaggy edges. In particular, example-based approaches learn and model the relationship between low and high resolution spaces via pairs of low and high resolution images. Artificial Neural Networks are among the most efficient systems to address this problem. This work demonstrate the interest of SR methods based on neural networks for improved automatic recognition systems. By adapting the data, it is possible to train such Machine Learning algorithms to produce high-resolution images. Convolutional Neural Networks are especially efficient as they are trained to simultaneously extract relevant non-linear features while learning the mapping between low and high resolution spaces. On document text images, the proposed method improves OCR accuracy by +7.85 points compared with simple interpolation. The creation of an annotated image dataset and the organisation of an international competition (ICDAR2015) highlighted the interest and the relevance of such approaches. Moreover, if a priori knowledge is available, it can be used by a suitable network architecture. For facial images, face features are critical for automatic recognition. A two step method is proposed in which image resolution is first improved, followed by specialised models that focus on the essential features. An off-the-shelf face verification system has its performance improved from +6.91 up to +8.15 points. Finally, to address the variability of real-world low-resolution images, deep neural networks allow to absorb the diversity of the blurring kernels that characterise the low-resolution images. With a single model, high-resolution images are produced with natural image statistics, without any knowledge of the actual observation model of the low-resolution image

Gli stili APA, Harvard, Vancouver, ISO e altri

19

Baklouti, Malek. "Localisation du visage et extraction des éléments faciaux, pour la conception d'un mode d'interaction homme-machine". Versailles-St Quentin en Yvelines, 2009. http://www.theses.fr/2009VERS0035.

Testo completo

Abstract (sommario):

Cette thèse d’inscrit dans le cadre de conception d’Interface Homme-Machine gestuelle pour la commande d’un système d'assistance robotique. Nous nous sommes intéressés aux interfaces naturelles qui répondent bien à cette problématique. Les différents travaux de cette thèse se sont concentrés sur les algorithmes de traitement d’image pour la détection du visage et sa localisation en 3D qui permettent de proposer un moyen de contrôle qui s’adapte au degré d'incapacité de l'utilisateur. La problématique à été traitée incrémentalement suivant le système de vision utilisé : monoculaire puis stéréoscopique. Les travaux utilisant la vision monoculaire nous ont permis d’approcher la détection du visage planaire par des algorithmes d’apprentissage s’inspirant des travaux de Viola et Jones en boostant un comité de réseaux de neurones. Nous proposons dans la deuxième partie de ce travail une approche d’estimation de la pose du visage utilisant des séquences d'images stéréoscopiques pré-calibrées. L’approche proposée se compose de deux étapes : Estimation temps réel de la profondeur utilisant une séquence d’image stéréoscopique puis l’alignement d’un modèle générique sur le nuage de points 3D afin d’en déduire la pose
This work deals with Human-Machine Interface for assistive robotic systems. Assistive systems should be endowed with interfaces that are specifically designed for disabled people in order to enable them to control the system with the most natural and less tiring way. This is the primary concern of this work. More precisely, we were interested in developing a vision based interface using user’s head movement. The problem was tackled incrementally following the system used: monocular and stereoscopic camera. Using monocular camera, we proposed a new approach for learning faces using a committee of neural networks generated using the well known Adaboost. We proposed training the neural network with reduced space Haar-like features instead of working with image pixels themselves. In the second part, we are proposing to tackle the head pose estimation in its ﬁne level using stereo vision approach. The framework can be break down into two parts: The ﬁrst part consists in estimating the 3D points set using stereoscopic acquisition and the second one deals with aligning a Candide-1 model with the 3D points set. Under alignment, the transformation matrix of the Candide model corresponds to the head pose parameters

Gli stili APA, Harvard, Vancouver, ISO e altri

20

Morabit, Safaa El. "New Artificial Intelligence techniques for Computer vision based medical diagnosis". Electronic Thesis or Diss., Valenciennes, Université Polytechnique Hauts-de-France, 2023. http://www.theses.fr/2023UPHF0013.

Testo completo

Abstract (sommario):

La capacité à ressentir la douleur est cruciale pour la vie, car elle sert de système d’alerteprécoce en cas de dommages potentiels pour le corps. La majorité des évaluations dela douleur reposent sur les rapports des patients. En revanche, les patients incapablesd’exprimer leur douleur doivent plutôt se fier aux rapports de tierces personnes sur leursouffrance. En raison des biais potentiel de l’observateur, les rapports sur la douleurpeuvent contenir des inexactitudes. En outre, il serait impossible de surveiller les patients 24 heures sur 24. Afin de mieux gérer la douleur, notamment chez les patients avec des difficultés de communication, des techniques de détection automatique de la douleur pourraient être mises en œuvre pour aider les soignants et compléter leur service. Les expressions faciales sont utilisées par la plupart des systèmes d’évaluation de la douleur basés sur l’observation, car elles constituent un indicateur fiable de la douleur et peuvent être interprétées à distance.En considérant que la douleur génère généralement un comportement facial spontané, les expressions faciales pourraient être utilisées pour détecter la présence de la douleur. Dans cette thèse, nous analysons les expressions faciales de la douleur afin d’aborder l’estimation de la douleur. Tout d’abord, nous présentons une analyse approfondie du problème en comparant de nombreuses architectures CNN (réseau de neurones convolutifs) courantes, telles que MobileNet, GoogleNet, ResNeXt-50, ResNet18et DenseNet-161. Nous utilisons ces réseaux dans deux modes uniques : autonome et extraction de caractéristiques. En mode autonome, les modèles (c’est-à-dire les réseaux)sont utilisés pour estimer directement la douleur. En mode extracteur de caractéristiques, les "valeurs" de la couche intermédiaire sont extraites et introduites dans desclassificateurs tels que la régression à vecteur de support (SVR) et la régression à forêtsd’arbres décisionnels (RFR).Les CNN ont obtenu des résultats significatifs dans la classification d’images et ontconnu un grand succès. Plus récemment, l’efficacité des Transformers en vision par ordinateur a été démontrée par plusieurs études. Des architectures basées sur les Transformers ont été proposées dans la deuxième section de cette thèse. Ces deux architectures distinctes ont été présentées pour répondre à deux problèmes distincts liés àla douleur : la détection de la douleur (douleur vs absence de douleur) et la distinction entre la douleur authentique et la douleur simulée. L’architecture innovante pourl’identification binaire de la douleur faciale est basée sur des transformateurs d’imagesefficaces en termes de données (Deit). Deux bases de données, UNBC-McMaster shoulder pain et BioVid heat pain, ont été utilisées pour affiner et évaluer le modèle formé. Ladeuxième architecture proposée, repose sur des transformateurs de vision pour la détection de douleurs authentiques et simulées à partir des expressions faciales (ViT). Pour distinguer la douleur authentique de la douleur simulée, le modèle doit accorder uneattention particulière aux changements subtils des expressions faciales dans le temps.L’approche employée prend en compte l’aspect séquentiel et capture les variations des expressions faciales. Les expériences ont été menées sur la base de données BioVid HeatPain démontrent l’efficacité de notre stratégie
The ability to feel pain is crucial for life, since it serves as an early warning system forpotential harm to the body. The majority of pain evaluations rely on patient reports. Patients who are unable to express their own pain must instead rely on third-party reportsof their suffering. Due to potential observer bias, pain reports may contain inaccuracies. In addition, it would be impossible for people to keep watch around the clock. Inorder to better manage pain, especially in noncommunicative patients, automatic paindetection technologies might be implemented to aid human caregivers and complementtheir service. Facial expressions are used by all observer-based pain assessment systemsbecause they are a reliable indicator of pain and can be interpreted from a distance.Taking into consideration that pain generally generates spontaneous facial behavior,these facial expressions could be used to detect the presence of pain. In this thesis, weanalyze facial expressions of pain in order to address pain estimation. First, we presenta thorough analysis of the problem by comparing numerous common CNN (Convolutional Neural Network) architectures, such as MobileNet, GoogleNet, ResNeXt-50, ResNet18, and DenseNet-161. We employ these networks in two unique modes: standalone and feature extraction. In standalone mode, models (i.e., networks) are utilized to directly estimate pain. In feature extractor mode, "values" from the middle layer are extracted and fed into classifiers like Support Vector Regression (SVR) and Random Forest Regression (RFR).CNNs have achieved significant results in image classification and have achievedgreat success. The effectiveness of Transformers in computer vision has been demonstrated through recent studies. Transformer-based architectures were proposed in the second section of this thesis. Two distinct Transformer-based frameworks were presented to address two distinct pain issues: pain detection (pain vs no pain) and thedistinction between genuine and posed pain. The innovative architecture for binaryidentification of facial pain is based on data-efficient image transformers (Deit). Twodatasets, UNBC-McMaster shoulder pain and BioVid heat pain, were used to fine-tuneand assess the trained model. The suggested architecture is built on Vision Transformers for the detection of genuine and simulated pain from facial expressions (ViT). Todistinguish between Genuine and Posed Pain, the model must pay particular attentionto the subtle changes in facial expressions over time. The employed approach takes intoaccount the sequential aspect and captures the variations in facial expressions. Experiments on the publicly accessible BioVid Heat Pain Database demonstrate the efficacy of our strategy

Gli stili APA, Harvard, Vancouver, ISO e altri

21

Mercier, Hugo. "Modélisation et suivi des déformations faciales : applications à la description des expressions du visage dans le contexte de la langue des signes". Phd thesis, Université Paul Sabatier - Toulouse III, 2007. http://tel.archives-ouvertes.fr/tel-00185084.

Testo completo

Abstract (sommario):

Le visage joue un rôle prépondérant en langue des signes, notamment par le sens porté par ses expressions. Peu d'études existent sur les expressions faciales en langue des signes ; cela est dû au manque d'outil de description. Dans cette thèse, il s'agit de développer des méthodes permettant la description la plus précise et exhaustive possible des différents mouvements faciaux observables au cours d'une séquence vidéo de langue des signes.

Le formalisme des modèles à apparence active (Active Appearance Models - AAM) est utilisé ici pour modéliser le visage en termes de déplacements d'un certain nombre de points d'intérêt et en termes de variations de texture. Quand il est associé à une méthode d'optimisation, ce formalisme permet de trouver les coordonnées des points d'intérêt sur un visage. Nous utilisons ici une méthode d'optimisation dite "à composition inverse", qui permet une implémentation efficace et l'obtention de résultats précis.

Dans le contexte de la langue des signes, les rotations hors-plan et les occultations manuelles sont fréquentes. Il est donc nécessaire de développer des méthodes robustes à ces conditions. Il existe pour cela une variante robuste des méthodes d'optimisation d'AAM qui permet de considérer une image d'entrée éventuellement bruitée.
Nous avons étendu cette variante de façon à ce que la détection des occultations puisse se faire de manière automatique, en supposant connu le comportement de l'algorithme dans le cas non-occulté.
Le résultat de l'algorithme est alors constitué des coordonnées 2D de chacun des points d'intérêt du modèle en chaque image d'une séquence vidéo, associées éventuellement à un score de confiance. Ces données brutes peuvent ensuite être exploitées dans plusieurs applications.

Nous proposons ainsi comme première application de décrire une séquence vidéo expressive en chaque instant par une combinaison de déformations unitaires activées à des intensités différentes. Une autre application originale consiste à traiter une vidéo de manière à empêcher l'identification d'un visage sans perturber la reconnaissance de ses expressions.

Gli stili APA, Harvard, Vancouver, ISO e altri

22

Dahmani, Sara. "Synthèse audiovisuelle de la parole expressive : modélisation des émotions par apprentissage profond". Electronic Thesis or Diss., Université de Lorraine, 2020. http://www.theses.fr/2020LORR0137.

Testo completo

Abstract (sommario):

Les travaux de cette thèse portent sur la modélisation des émotions pour la synthèse audiovisuelle expressive de la parole à partir du texte. Aujourd’hui, les résultats des systèmes de synthèse de la parole à partir du texte sont de bonne qualité, toutefois la synthèse audiovisuelle reste encore une problématique ouverte et la synthèse expressive l’est encore d’avantage. Nous proposons dans le cadre de cette thèse une méthode de modélisation des émotions malléable et flexible, permettant de mélanger les émotions comme on mélange les teintes sur une palette de couleurs. Dans une première partie, nous présentons et étudions deux corpus expressifs que nous avons construits. La stratégie d’acquisition ainsi que le contenu expressif de ces corpus sont analysés pour valider leur utilisation à des fins de synthèse audiovisuelle de la parole. Dans une seconde partie, nous proposons deux architectures neuronales pour la synthèse de la parole. Nous avons utilisé ces deux architectures pour modéliser trois aspects de la parole : 1) les durées des sons, 2) la modalité acoustique et 3) la modalité visuelle. Dans un premier temps, nous avons adopté une architecture entièrement connectée. Cette dernière nous a permis d’étudier le comportement des réseaux de neurones face à différents descripteurs contextuels et linguistiques. Nous avons aussi pu analyser, via des mesures objectives, la capacité du réseau à modéliser les émotions. La deuxième architecture neuronale proposée est celle d’un auto-encodeur variationnel. Cette architecture est capable d’apprendre une représentation latente des émotions sans utiliser les étiquettes des émotions. Après analyse de l’espace latent des émotions, nous avons proposé une procédure de structuration de ce dernier pour pouvoir passer d’une représentation par catégorie vers une représentation continue des émotions. Nous avons pu valider, via des expériences perceptives, la capacité de notre système à générer des émotions, des nuances d’émotions et des mélanges d’émotions, et cela pour la synthèse audiovisuelle expressive de la parole à partir du texte
: The work of this thesis concerns the modeling of emotions for expressive audiovisual textto-speech synthesis. Today, the results of text-to-speech synthesis systems are of good quality, however audiovisual synthesis remains an open issue and expressive synthesis is even less studied. As part of this thesis, we present an emotions modeling method which is malleable and flexible, and allows us to mix emotions as we mix shades on a palette of colors. In the first part, we present and study two expressive corpora that we have built. The recording strategy and the expressive content of these corpora are analyzed to validate their use for the purpose of audiovisual speech synthesis. In the second part, we present two neural architectures for speech synthesis. We used these two architectures to model three aspects of speech : 1) the duration of sounds, 2) the acoustic modality and 3) the visual modality. First, we use a fully connected architecture. This architecture allowed us to study the behavior of neural networks when dealing with different contextual and linguistic descriptors. We were also able to analyze, with objective measures, the network’s ability to model emotions. The second neural architecture proposed is a variational auto-encoder. This architecture is able to learn a latent representation of emotions without using emotion labels. After analyzing the latent space of emotions, we presented a procedure for structuring it in order to move from a discrete representation of emotions to a continuous one. We were able to validate, through perceptual experiments, the ability of our system to generate emotions, nuances of emotions and mixtures of emotions, and this for expressive audiovisual text-to-speech synthesis

Gli stili APA, Harvard, Vancouver, ISO e altri

Offriamo sconti su tutti i piani premium per gli autori le cui opere sono incluse in raccolte letterarie tematiche. Contattaci per ottenere un codice promozionale unico!