Tesis: "Traitement des vidéos faciales"

1

Ouzar, Yassine. "Reconnaissance automatique sans contact de l'état affectif de la personne par fusion physio-visuelle à partir de vidéo du visage". Electronic Thesis or Diss., Université de Lorraine, 2023. http://www.theses.fr/2023LORR0076.

Texto completo

Resumen

La reconnaissance automatique de l'état affectif reste un sujet difficile en raison de la complexité des émotions / stress, qui impliquent des éléments expérientiels, comportementaux et physiologiques. Comme il est difficile de décrire l'état affectif de la personne de manière exhaustive en termes de modalités uniques, des études récentes se sont concentrées sur des stratégies de fusion afin d'exploiter la complémentarité des signaux multimodaux. L'objectif principal de cette thèse consiste à étudier la faisabilité d'une fusion physio-visuelle pour la reconnaissance automatique de l'état affectif de la personne (émotions / stress) à partir des vidéos du visage. La fusion des expressions faciales et des signaux physiologiques permet de tirer les avantages de chaque modalité. Les expressions faciales sont simple à acquérir et permettent d'avoir une vision externe de l'état affectif, tandis que les signaux physiologiques permettent d'améliorer la fiabilité et relever le problème des expressions faciales contrefaites. Les recherches développées dans cette thèse se situent à l'intersection de l'intelligence artificielle, l'informatique affective ainsi que l'ingénierie biomédicale. Notre contribution s'axe sur deux aspects. Nous proposons en premier lieu une nouvelle approche bout-en-bout permettant d'estimer la fréquence cardiaque à partir d'enregistrements vidéo du visage à l'aide du principe de photopléthysmographie par imagerie (iPPG). La méthode repose sur un réseau spatio-temporel profond (X-iPPGNet) qui apprend le concept d'iPPG à partir de zéro, sans incorporer de connaissances préalables ni passer par l'extraction manuelle des signaux iPPG. Le seconde aspect porte sur une chaine de traitement physio-visuelle pour la reconnaissance automatique des émotions spontanées et du stress à partir des vidéos du visage. Le modèle proposé comprend deux étages permettant d'extraire les caractéristiques de chaque modalité. Le pipeline physiologique est commun au système de reconnaissance d'émotion et celui du stress. Il est basé sur MTTS-CAN, une méthode récente d'estimation du signal iPPG. Deux modèles neuronaux distincts ont été utilisés pour prédire les émotions et le stress de la personne à partir des informations visuelles contenues dans la vidéo (e.g. expressions faciales) : un réseau spatio-temporel combinant le module Squeeze-Excitation et l'architecture Xception pour estimer l'état émotionnel et une approche d'apprentissage par transfert pour l'estimation du niveau de stress. Cette approche a été privilégiée afin de réduire les efforts de développement et surmonter le problème du manque de données. Une fusion des caractéristiques physiologiques et des expressions faciales est ensuite effectuée pour prédire les états émotionnels ou de stress
Human affective state recognition remains a challenging topic due to the complexity of emotions, which involves experiential, behavioral, and physiological elements. Since it is difficult to comprehensively describe emotion in terms of single modalities, recent studies have focused on artificial intelligence approaches and fusion strategy to exploit the complementarity of multimodal signals using artificial intelligence approaches. The main objective is to study the feasibility of a physio-visual fusion for the recognition of the affective state of the person (emotions/stress) from facial videos. The fusion of facial expressions and physiological signals allows to take advantage of each modality. Facial expressions are easy to acquire and provide an external view of the affective state, while physiological signals improve reliability and address the problem of falsified facial expressions. The research developed in this thesis lies at the intersection of artificial intelligence, affective computing, and biomedical engineering. Our contribution focuses on two points. First, we propose a new end-to-end approach for instantaneous pulse rate estimation directly from facial video recordings using the principle of imaging photoplethysmography (iPPG). This method is based on a deep spatio-temporal network (X-iPPGNet) that learns the iPPG concept from scratch, without incorporating prior knowledge or going through manual iPPG signal extraction. The second contribution focuses on a physio-visual fusion for spontaneous emotions and stress recognition from facial videos. The proposed model includes two pipelines to extract the features of each modality. The physiological pipeline is common to both the emotion and stress recognition systems. It is based on MTTS-CAN, a recent method for estimating the iPPG signal, while two distinct neural models were used to predict the person's emotions and stress from the visual information contained in the video (e.g. facial expressions): a spatio-temporal network combining the Squeeze-Excitation module and the Xception architecture for estimating the emotional state and a transfer learning approach for estimating the stress level. This approach reduces development effort and overcomes the lack of data. A fusion of physiological and facial features is then performed to predict the emotional or stress states