Tesi: "Infox vidéo"

1

Moufidi, Abderrazzaq. "Machine Learning-Based Multimodal integration for Short Utterance-Based Biometrics Identification and Engagement Detection". Electronic Thesis or Diss., Angers, 2024. http://www.theses.fr/2024ANGE0026.

Testo completo

Abstract (sommario):

Le progrès rapide et la démocratisation de la technologie ont conduit à l’abondance des capteurs. Par conséquent, l’intégration de ces diverses modalités pourrait présenter un avantage considérable pour de nombreuses applications dans la vie réelle, telles que la reconnaissance biométrique ou la détection d’engagement des élèves. Dans le domaine de la multimodalité, les chercheurs ont établi des architectures variées de fusion, allant des approches de fusion précoce, hybride et tardive. Cependant, ces architectures peuvent avoir des limites en ce qui concerne des signaux temporels d’une durée courte, ce qui nécessite un changement de paradigme vers le développement de techniques d’apprentissage automatique multimodales qui promettent une précision et une efficacité pour l’analyse de ces données courtes. Dans cette thèse, nous nous appuyons sur l’intégration de la multimodalité pour relever les défis précédents, allant de l’identification biométrique supervisée à la détection non supervisée de l’engagement des étudiants. La première contribution de ce doctorat porte sur l’intégration de la Wavelet Scattering Transform à plusieurs couches avec une architecture profonde appelée x-vectors, grâce à laquelle nous avons amélioré la performance de l’identification du locuteur dans des scénarios impliquant des énoncés courts tout en réduisant le nombre de paramètres nécessaires à l’entraînement. En s’appuyant sur les avantages de la multimodalité, on a proposé une architecture de fusion tardive combinant des vidéos de la profondeur des lèvres et des signaux audios a permis d’améliorer la précision de l’identification dans le cas d’énoncés courts, en utilisant des méthodes efficaces et moins coûteuses pour extraire des caractéristiques spatio-temporelles. Dans le domaine des défis biométriques, il y a la menace de l’émergence des "deepfakes". Ainsi, nous nous sommes concentrés sur l’élaboration d’une méthode de détection des "deepfakes" basée sur des méthodes mathématiques compréhensibles et sur une version finement ajustée de notre précédente fusion tardive appliquée aux vidéos RVB des lèvres et aux audios. En utilisant des méthodes de détection d’anomalies conçues spécifiquement pour les modalités audio et visuelles, l’étude a démontré des capacités de détection robustes dans divers ensembles de données et conditions, soulignant l’importance des approches multimodales pour contrer l’évolution des techniques de deepfake. S’étendant aux contextes éducatifs, la thèse explore la détection multimodale de l’engagement des étudiants dans une classe. En utilisant des capteurs abordables pour acquérir les signaux du rythme cardiaque et les expressions faciales, l’étude a développé un ensemble de données reproductibles et un plan pour identifier des moments significatifs, tout en tenant compte des nuances culturelles. L’analyse des expressions faciales à l’aide de Vision Transformer (ViT) fusionnée avec le traitement des signaux de fréquence cardiaque, validée par des observations d’experts, a mis en évidence le potentiel du suivi des élèves afin d’améliorer la qualité d’enseignement
The rapid advancement and democratization of technology have led to an abundance of sensors. Consequently, the integration of these diverse modalities presents an advantage for numerous real-life applications, such as biometrics recognition and engage ment detection. In the field of multimodality, researchers have developed various fusion ar chitectures, ranging from early, hybrid, to late fusion approaches. However, these architec tures may have limitations involving short utterances and brief video segments, necessi tating a paradigm shift towards the development of multimodal machine learning techniques that promise precision and efficiency for short-duration data analysis. In this thesis, we lean on integration of multimodality to tackle these previous challenges ranging from supervised biometrics identification to unsupervised student engagement detection. This PhD began with the first contribution on the integration of multiscale Wavelet Scattering Transform with x-vectors architecture, through which we enhanced the accuracy of speaker identification in scenarios involving short utterances. Going through multimodality benefits, a late fusion architecture combining lips depth videos and audio signals further improved identification accuracy under short utterances, utilizing an effective and less computational methods to extract spatiotemporal features. In the realm of biometrics challenges, there is the threat emergence of deepfakes. There-fore, we focalized on elaborating a deepfake detection methods based on, shallow learning and a fine-tuned architecture of our previous late fusion architecture applied on RGB lips videos and audios. By employing hand-crafted anomaly detection methods for both audio and visual modalities, the study demonstrated robust detection capabilities across various datasets and conditions, emphasizing the importance of multimodal approaches in countering evolving deepfake techniques. Expanding to educational contexts, the dissertation explores multimodal student engagement detection in classrooms. Using low-cost sensors to capture Heart Rate signals and facial expressions, the study developed a reproducible dataset and pipeline for identifying significant moments, accounting for cultural nuances. The analysis of facial expressions using Vision Transformer (ViT) fused with heart rate signal processing, validated through expert observations, showcased the potential for real-time monitoring to enhance educational outcomes through timely interventions