Tesi: "Traitement multimodal"

1

Dourlens, Sébastien. "Multimodal interaction semantic architecture for ambient intelligence". Versailles-St Quentin en Yvelines, 2012. http://www.theses.fr/2012VERS0011.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Il existe encore de nombreux domaines dans lesquels des moyens doivent être explorés pour améliorer l'interaction homme-système. Ces systèmes doivent avoir la capacité de tirer avantage de l'environnement pour améliorer l'interaction. Et ceci afin d'étendre les capacités du système (machine ou robot) dans le but de se rapprocher du langage naturel utilisé par les êtres humains. Nous proposons une méthodologie pour résoudre le problème d'interaction multimodale adaptée aux différents contextes en définissant et modélisant une architecture distribuée qui s'appuie sur les standards du W3C et des services Web (agents sémantiques et services d'entrée / sortie) qui travaillent dans un environnement d'intelligence ambiante. Cette architecture est réalisée en utilisant le modèle des systèmes multi-agents. Afin d'atteindre cet objectif, nous avons besoin de modéliser l'environnement en utilisant un langage de représentation des connaissances et de communication (EKRL, Ontologie). Le modèle de l'environnement obtenu est utilisé dans deux principaux processus d'inférence sémantique: la fusion et la fission des événements à différents niveaux d'abstraction. Ces opérations sont sensibles au contexte. Le système de fusion interprète, comprend l'environnement et détecte le scénario qui se passe. Le système de fission interprète le scénario, le divise en tâches élémentaires et exécute les tâches qui nécessitent la découverte, la sélection et la composition de services appropriés dans l'environnement pour répondre aux différents objectifs. L'adaptation au contexte de l’environnement est basée sur la technique d'apprentissage par renforcement multi-niveaux. L'architecture globale de fusion et fission est validée et développée dans notre framework (agents, services, concentrateurs EKRL) par l'analyse de différentes performances sur des cas d'utilisation tels que la surveillance et l'assistance dans les activités quotidiennes à la maison et en ville
There still exist many fields in which ways are to be explored to improve the human-system interaction. These systems must have the capability to take advantage of the environment in order to improve interaction. This extends the capabilities of system (machine or robot) to better reach natural language used by human beings. We propose a methodology to solve the multimodal interaction problem adapted to several contexts by defining and modelling a distributed architecture relying on W3C standards and web services (semantic agents and input/output services) working in ambient intelligence environment. This architecture is embedded in a multi-agent system modelling technique. In order to achieve this goal, we need to model the environment using a knowledge representation and communication language (EKRL, Ontology). The obtained semantic environment model is used in two main semantic inference processes: fusion and fission of events at different levels of abstraction. They are considered as two context-aware operations. The fusion operation interprets and understands the environment and detects the happening scenario. The multimodal fission operation interprets the scenario, divides it into elementary tasks, and executes these tasks which require the discovery, selection and composition of appropriate services in the environment to accomplish various aims. The adaptation to environmental context is based on multilevel reinforcement learning technique. The overall architecture of fusion and fission is validated under our framework (agents, services, EKRL concentrator), by developing different performance analysis on some use cases such as monitoring and assistance in daily activities at home and in the town

2

Chlaily, Saloua. "Modèle d'interaction et performances du traitement du signal multimodal". Thesis, Université Grenoble Alpes (ComUE), 2018. http://www.theses.fr/2018GREAT026/document.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Bien que le traitement conjoint des mesures multimodales soit supposé conduire à de meilleures performances que celles obtenues en exploitant une seule modalité ou plusieurs modalités indépendamment, il existe des exemples en littérature qui prouvent que c'est pas toujours vrai. Dans cette thèse, nous analysons rigoureusement, en termes d'information mutuelle et d'erreur d'estimation, les différentes situations de l'analyse multimodale afin de déterminer les conditions conduisant à des performances optimales.Dans la première partie, nous considérons le cas simple de deux ou trois modalités, chacune étant associée à la mesure bruitée d'un signal, avec des liens entre modalités matérialisés par les corrélations entre les parties utiles du signal et par les corrélations les bruits. Nous montrons comment les performances obtenues sont améliorées avec l'exploitation des liens entre les modalités. Dans la seconde partie, nous étudions l'impact sur les performances d'erreurs sur les liens entre modalités. Nous montrons que ces fausses hypothèses dégradent les performances, qui peuvent alors devenir inférieure à celles atteintes avec une seule modalité.Dans le cas général, nous modélisons les multiples modalités comme un canal gaussien bruité. Nous étendons alors des résultats de la littérature en considérant l'impact d'erreurs sur les densités de probabilité du signal et du bruit sur l'information transmise par le canal. Nous analysons ensuite cette relation dans la cas d'un modèle simple de deux modalités. Nos résultats montrent en particulier le fait inattendu qu'une double inadéquation du bruit et du signal peuvent parfois se compenser et ainsi conduire à de très bonnes performances
The joint processing of multimodal measurements is supposed to lead to better performances than those obtained using a single modality or several modalities independently. However, in literature, there are examples that show that is not always true. In this thesis, we analyze, in terms of mutual information and estimation error, the different situations of multimodal analysis in order to determine the conditions to achieve the optimal performances.In the first part, we consider the simple case of two or three modalities, each associated with noisy measurement of a signal. These modalities are linked through the correlations between the useful parts of the signal and the correlations between the noises. We show that the performances are improved if the links between the modalities are exploited. In the second part, we study the impact on performance of wrong links between modalities. We show that these false assumptions decline the performance, which can become lower than the performance achieved using a single modality.In the general case, we model the multiple modalities as a noisy Gaussian channel. We then extend literature results by considering the impact of the errors on signal and noise probability densities on the information transmitted by the channel. We then analyze this relationship in the case of a simple model of two modalities. Our results show in particular the unexpected fact that a double mismatch of the noise and the signal can sometimes compensate for each other, and thus lead to very good performances

3

Caglayan, Ozan. "Multimodal Machine Translation". Thesis, Le Mans, 2019. http://www.theses.fr/2019LEMA1016/document.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

La traduction automatique vise à traduire des documents d’une langue à une autre sans l’intervention humaine. Avec l’apparition des réseaux de neurones profonds (DNN), la traduction automatique neuronale(NMT) a commencé à dominer le domaine, atteignant l’état de l’art pour de nombreuses langues. NMT a également ravivé l’intérêt pour la traduction basée sur l’interlangue grâce à la manière dont elle place la tâche dans un cadre encodeur-décodeur en passant par des représentations latentes. Combiné avec la flexibilité architecturale des DNN, ce cadre a aussi ouvert une piste de recherche sur la multimodalité, ayant pour but d’enrichir les représentations latentes avec d’autres modalités telles que la vision ou la parole, par exemple. Cette thèse se concentre sur la traduction automatique multimodale(MMT) en intégrant la vision comme une modalité secondaire afin d’obtenir une meilleure compréhension du langage, ancrée de façon visuelle. J’ai travaillé spécifiquement avec un ensemble de données contenant des images et leurs descriptions traduites, où le contexte visuel peut être utile pour désambiguïser le sens des mots polysémiques, imputer des mots manquants ou déterminer le genre lors de la traduction vers une langue ayant du genre grammatical comme avec l’anglais vers le français. Je propose deux approches principales pour intégrer la modalité visuelle : (i) un mécanisme d’attention multimodal qui apprend à prendre en compte les représentations latentes des phrases sources ainsi que les caractéristiques visuelles convolutives, (ii) une méthode qui utilise des caractéristiques visuelles globales pour amorcer les encodeurs et les décodeurs récurrents. Grâce à une évaluation automatique et humaine réalisée sur plusieurs paires de langues, les approches proposées se sont montrées bénéfiques. Enfin,je montre qu’en supprimant certaines informations linguistiques à travers la dégradation systématique des phrases sources, la véritable force des deux méthodes émerge en imputant avec succès les noms et les couleurs manquants. Elles peuvent même traduire lorsque des morceaux de phrases sources sont entièrement supprimés
Machine translation aims at automatically translating documents from one language to another without human intervention. With the advent of deep neural networks (DNN), neural approaches to machine translation started to dominate the field, reaching state-ofthe-art performance in many languages. Neural machine translation (NMT) also revived the interest in interlingual machine translation due to how it naturally fits the task into an encoder-decoder framework which produces a translation by decoding a latent source representation. Combined with the architectural flexibility of DNNs, this framework paved the way for further research in multimodality with the objective of augmenting the latent representations with other modalities such as vision or speech, for example. This thesis focuses on a multimodal machine translation (MMT) framework that integrates a secondary visual modality to achieve better and visually grounded language understanding. I specifically worked with a dataset containing images and their translated descriptions, where visual context can be useful forword sense disambiguation, missing word imputation, or gender marking when translating from a language with gender-neutral nouns to one with grammatical gender system as is the case with English to French. I propose two main approaches to integrate the visual modality: (i) a multimodal attention mechanism that learns to take into account both sentence and convolutional visual representations, (ii) a method that uses global visual feature vectors to prime the sentence encoders and the decoders. Through automatic and human evaluation conducted on multiple language pairs, the proposed approaches were demonstrated to be beneficial. Finally, I further show that by systematically removing certain linguistic information from the input sentences, the true strength of both methods emerges as they successfully impute missing nouns, colors and can even translate when parts of the source sentences are completely removed

4

Choumane, Ali Siroux Jacques. "Traitement générique des références dans le cadre multimodal parole-image-tactile". Rennes : [s.n.], 2008. ftp://ftp.irisa.fr/techreports/theses/2008/choumane.pdf.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

5

Choumane, Ali. "Traitement générique des références dans le cadre multimodal parole-image-tactile". Rennes 1, 2008. ftp://ftp.irisa.fr/techreports/theses/2008/choumane.pdf.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Nous nous intéressons dans cette thèse aux systèmes de communication homme-machine multimodale qui utilisent les modes suivants : la parole, le geste et le visuel. L'usager communique avec le système par un énoncé oral en langue naturelle et/ou un geste. Dans sa requête, encodée sur les différentes modalités, l'usager exprime son but et désigne des objets (référents) nécessaires à la réalisation de ce but. Le système doit identifier de manière précise et non ambiguë ces objets désignés. Afin d'améliorer la compréhension automatique des requêtes multimodales dans ce contexte, nous proposons un ensemble générique de traitement des modalités, de fusion et de résolution des expressions référentielles. Les principaux aspects de la réalisation consistent en les modélisations du traitement de la langue naturelle dans le contexte de la parole, du traitement du geste et du contexte visuel (utilisation de la saillance visuelle) en prenant en compte les difficultés inhérentes en contexte de la communication multimodale : erreur de reconnaissance de la parole, ambiguïté de la langue naturelle, imprécision du geste due à la performance de l'usager, ambiguïté dans la désignation due à la perception des objets affichés ou à la topologie de l'affichage. Pour l'interprétation complète de la requête nous proposons une méthode de fusion/vérification des résultats des traitements de chaque modalité pour trouver les objets désignés par l'usager
We are interested in multimodal human-computer communication systems that use the following modes: speech, gesture and vision. The user communicates with the system by oral utterance in natural language and/or by gesture. The user's request contains his/her goal and the designation of objects (referents) required to the goal realisation. The system should identify in a precise and non ambiguous way the designated objects. In this context, we aim to improve the understanding process of multimodal requests. Hence, we propose a generic set of processing of modalities, for fusion and for reference resolution. The main aspects of the realisation consist in modeling the natural language processing in speech environment, the gesture processing and the visual context (visual salience use) while taking into account the difficulties in multimodal context: speech recognition errors, natural language ambiguity, gesture imprecision due to the user performance, designation ambiguity due to the perception of the displayed objects or to the display topology. To complete the interpretation of the user's request, we propose a method for fusion/verification of modalities processing results to find the designated objects by the user

6

Sarrut, David Miguet Serge. "Recalage multimodal et plate-forme d'imagerie médicale à accès distant". [S.l.] : [s.n.], 2000. http://demeter.univ-lyon2.fr:8080/sdx/theses/lyon2/2000/sarrut_d.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

7

Sarrut, David. "Recalage multimodal et plate-forme d'imagerie médicale à accès distant". Lyon 2, 2000. http://theses.univ-lyon2.fr/documents/lyon2/2000/sarrut_d.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Les recherches présentées dans cette thèse s'insèrent dans divers projets concernant le recalage d'images médicales et l'étude de techniques haute-performance destinées aux environnements hospitaliers. Le recalage multimodal consiste à mettre en correspondance un couple d'images de façon à pouvoir fusionner les informations de chacune d'elles. Nous présentons tout d'abord une classification synthétique de nombreuses mesures de similarité en mettant l'accent sur les hypothèses sous-jacentes à la nature des liens entre les distributions d'intensités. Puis nous proposons plusieurs procédures d'interpolation en les comparant aux méthodes usuelles du point de vue de la précision, de la rapidité et de la robustesse vis-à-vis de la stratégie d'optimisation du critère de similarité. Comme les étapes les plus coûteuses en temps de calcul sont les évaluations du critère à travers les transformations (rigides) d'images, nous proposons ensuite un algorithme original permettant d'accélérer substantiellement le processus global. Par la suite, ces techniques de recalage sont appliquées dans le cadre du positionnement de patient en radiothérapie conformationnelle. Nous développons une nouvelle approche permettant une évaluation précise du placement du patient grâce à une recherche par le contenu dans une série d'images pré-calculées. Les résultats obtenus sont encourageants puisque des déplacements importants, typiquement comportant des rotations hors-plan, sont correctement estimés. Dans la deuxième partie de cette thèse, nous développons un système nommé ARAMIS (A Remonte Access Imaging System) permettant d'activer à distance et à partir d'un poste de travail banalisé, des calculs parallèles de traitements d'images médicales. Parmi les outils intégrables dans ARAMIS, nous présentons un algorithme original permettant de calculer en temps linéaire la relation d'adjacence dans une surface triangulée générée par l'algorithme des Marching-Cubes.

8

Cadène, Rémi. "Deep Multimodal Learning for Vision and Language Processing". Electronic Thesis or Diss., Sorbonne université, 2020. http://www.theses.fr/2020SORUS277.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Les technologies du numérique ont joué un rôle déterminant dans la transformation de notre société. Des méthodes statistiques récentes ont été déployées avec succès afin d’automatiser le traitement de la quantité croissante d’images, de vidéos et de textes que nous produisons quotidiennement. En particulier, les réseaux de neurones profonds ont été adopté par les communautés de la vision par ordinateur et du traitement du langage naturel pour leur capacité à interpréter le contenu des images et des textes une fois entraînés sur de grands ensembles de données. Les progrès réalisés dans les deux communautés ont permis de jeter les bases de nouveaux problèmes de recherche à l’intersection entre vision et langage. Dans la première partie de cette thèse, nous nous concentrons sur des moteurs de recherche multimodaux images-textes. Nous proposons une stratégie d’apprentissage pour aligner efficacement les deux modalités tout en structurant l’espace de recherche avec de l’information sémantique. Dans la deuxième partie, nous nous concentrons sur des systèmes capables de répondre à toute question sur une image. Nous proposons une architecture multimodale qui fusionne itérativement les modalités visuelles et textuelles en utilisant un modèle bilinéaire factorisé, tout en modélisant les relations par paires entre chaque région de l’image. Dans la dernière partie, nous abordons les problèmes de biais dans la modélisation. Nous proposons une stratégie d’apprentissage réduisant les biais linguistiques généralement présents dans les systèmes de réponse aux questions visuelles
Digital technologies have become instrumental in transforming our society. Recent statistical methods have been successfully deployed to automate the processing of the growing amount of images, videos, and texts we produce daily. In particular, deep neural networks have been adopted by the computer vision and natural language processing communities for their ability to perform accurate image recognition and text understanding once trained on big sets of data. Advances in both communities built the groundwork for new research problems at the intersection of vision and language. Integrating language into visual recognition could have an important impact on human life through the creation of real-world applications such as next-generation search engines or AI assistants.In the first part of this thesis, we focus on systems for cross-modal text-image retrieval. We propose a learning strategy to efficiently align both modalities while structuring the retrieval space with semantic information. In the second part, we focus on systems able to answer questions about an image. We propose a multimodal architecture that iteratively fuses the visual and textual modalities using a factorized bilinear model while modeling pairwise relationships between each region of the image. In the last part, we address the issues related to biases in the modeling. We propose a learning strategy to reduce the language biases which are commonly present in visual question answering systems

9

Chen, Jianan. "Deep Learning Based Multimodal Retrieval". Electronic Thesis or Diss., Rennes, INSA, 2023. http://www.theses.fr/2023ISAR0019.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Les tâches multimodales jouent un rôle crucial dans la progression vers l'atteinte de l'intelligence artificielle (IA) générale. L'objectif principal de la recherche multimodale est d'exploiter des algorithmes d'apprentissage automatique pour extraire des informations sémantiques pertinentes, en comblant le fossé entre différentes modalités telles que les images visuelles, le texte linguistique et d'autres sources de données. Il convient de noter que l'entropie de l'information associée à des données hétérogènes pour des sémantiques de haut niveau identiques varie considérablement, ce qui pose un défi important pour les modèles multimodaux. Les modèles de réseau multimodal basés sur l'apprentissage profond offrent une solution efficace pour relever les difficultés découlant des différences substantielles d'entropie de l’information. Ces modèles présentent une précision et une stabilité impressionnantes dans les tâches d'appariement d'informations multimodales à grande échelle, comme la recherche d'images et de textes. De plus, ils démontrent de solides capacités d'apprentissage par transfert, permettant à un modèle bien entraîné sur une tâche multimodale d'être affiné et appliqué à une nouvelle tâche multimodale. Dans nos recherches, nous développons une nouvelle base de données multimodale et multi-vues générative spécifiquement conçue pour la tâche de segmentation référentielle multimodale. De plus, nous établissons une référence de pointe (SOTA) pour les modèles de segmentation d'expressions référentielles dans le domaine multimodal. Les résultats de nos expériences comparatives sont présentés de manière visuelle, offrant des informations claires et complètes
Multimodal tasks play a crucial role in the progression towards achieving general artificial intelligence (AI). The primary goal of multimodal retrieval is to employ machine learning algorithms to extract relevant semantic information, bridging the gap between different modalities such as visual images, linguistic text, and other data sources. It is worth noting that the information entropy associated with heterogeneous data for the same high-level semantics varies significantly, posing a significant challenge for multimodal models. Deep learning-based multimodal network models provide an effective solution to tackle the difficulties arising from substantial differences in information entropy. These models exhibit impressive accuracy and stability in large-scale cross-modal information matching tasks, such as image-text retrieval. Furthermore, they demonstrate strong transfer learning capabilities, enabling a well-trained model from one multimodal task to be fine-tuned and applied to a new multimodal task, even in scenarios involving few-shot or zero-shot learning. In our research, we develop a novel generative multimodal multi-view database specifically designed for the multimodal referential segmentation task. Additionally, we establish a state-of-the-art (SOTA) benchmark and multi-view metric for referring expression segmentation models in the multimodal domain. The results of our comparative experiments are presented visually, providing clear and comprehensive insights

10

Delecraz, Sébastien. "Approches jointes texte/image pour la compréhension multimodale de documents". Thesis, Aix-Marseille, 2018. http://www.theses.fr/2018AIXM0634/document.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Les mécanismes de compréhension chez l'être humain sont par essence multimodaux. Comprendre le monde qui l'entoure revient chez l'être humain à fusionner l'information issue de l'ensemble de ses récepteurs sensoriels. La plupart des documents utilisés en traitement automatique de l'information sont multimodaux. Par exemple, du texte et des images dans des documents textuels ou des images et du son dans des documents vidéo. Cependant, les traitements qui leurs sont appliqués sont le plus souvent monomodaux. Le but de cette thèse est de proposer des traitements joints s'appliquant principalement au texte et à l'image pour le traitement de documents multimodaux à travers deux études : l'une portant sur la fusion multimodale pour la reconnaissance du rôle du locuteur dans des émissions télévisuelles, l'autre portant sur la complémentarité des modalités pour une tâche d'analyse linguistique sur des corpus d'images avec légendes. Pour la première étude nous nous intéressons à l'analyse de documents audiovisuels provenant de chaînes d'information télévisuelle. Nous proposons une approche utilisant des réseaux de neurones profonds pour la création d'une représentation jointe multimodale pour les représentations et la fusion des modalités. Dans la seconde partie de cette thèse nous nous intéressons aux approches permettant d'utiliser plusieurs sources d'informations multimodales pour une tâche monomodale de traitement automatique du langage, afin d'étudier leur complémentarité. Nous proposons un système complet de correction de rattachements prépositionnels utilisant de l'information visuelle, entraîné sur un corpus multimodal d'images avec légendes
The human faculties of understanding are essentially multimodal. To understand the world around them, human beings fuse the information coming from all of their sensory receptors. Most of the documents used in automatic information processing contain multimodal information, for example text and image in textual documents or image and sound in video documents, however the processings used are most often monomodal. The aim of this thesis is to propose joint processes applying mainly to text and image for the processing of multimodal documents through two studies: one on multimodal fusion for the speaker role recognition in television broadcasts, the other on the complementarity of modalities for a task of linguistic analysis on corpora of images with captions. In the first part of this study, we interested in audiovisual documents analysis from news television channels. We propose an approach that uses in particular deep neural networks for representation and fusion of modalities. In the second part of this thesis, we are interested in approaches allowing to use several sources of multimodal information for a monomodal task of natural language processing in order to study their complementarity. We propose a complete system of correction of prepositional attachments using visual information, trained on a multimodal corpus of images with captions

11

Ranisavljević, Elisabeth. "Cloud computing appliqué au traitement multimodal d’images in situ pour l’analyse des dynamiques environnementales". Thesis, Toulouse 2, 2016. http://www.theses.fr/2016TOU20128/document.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

L’analyse des paysages, de ses dynamiques et ses processus environnementaux, nécessite d’acquérir régulièrement des données des sites, notamment pour le bilan glaciaire au Spitsberg et en haute montagne. A cause des mauvaises conditions climatiques communes aux latitudes polaires et à cause de leur coût, les images satellites journalières ne sont pas toujours accessibles. De ce fait, les événements rapides comme la fonte de la neige ou l'enneigement ne peuvent pas être étudiés à partir des données de télédétection à cause de leur fréquence trop faible. Nous avons complété les images satellites par un ensemble de de stations photo automatiques et autonomes qui prennent 3 photos par jour. L’acquisition de ces photos génère une grande base de données d’images. Plusieurs traitements doivent être appliqués sur les photos afin d’extraire l’information souhaitée (modifications géométriques, gestion des perturbations atmosphériques, classification, etc). Seule l’informatique est à même de stocker et gérer toutes ces informations. Le cloud computing offre en tant que services des ressources informatiques (puissance de calcul, espace de stockage, applications, etc). Uniquement le stockage de la masse de données géographique pourrait être une raison d’utilisation du cloud computing. Mais en plus de son espace de stockage, le cloud offre une simplicité d’accès, une architecture scalable ainsi qu’une modularité dans les services disponibles. Dans le cadre de l’analyse des photos in situ, le cloud computing donne la possibilité de mettre en place un outil automatique afin de traiter l’ensemble des données malgré la variété des perturbations ainsi que le volume de données. A travers une décomposition du traitement d’images en plusieurs tâches, implémentées en tant que web services, la composition de ces services nous permet d’adapter le traitement aux conditions de chacune des données
Analyzing landscape, its dynamics and environmental evolutions require regular data from the sites, specifically for glacier mass balanced in Spitsbergen and high mountain area. Due to poor weather conditions including common heavy cloud cover at polar latitudes, and because of its cost, daily satellite imaging is not always accessible. Besides, fast events like flood or blanket of snow is ignored by satellite based studies, since the slowest sampling rate is unable to observe it. We complement satellite imagery with a set of ground based autonomous automated digital cameras which take 3 pictures a day. These pictures form a huge database. Each picture needs many processing to extract the information (geometric modifications, atmospheric disturbances, classification, etc). Only computer science is able to store and manage all this information. Cloud computing, being more accessible in the last few years, offers as services IT resources (computing power, storage, applications, etc.). The storage of the huge geographical data could, in itself, be a reason to use cloud computing. But in addition to its storage space, cloud offers an easy way to access , a scalable architecture and a modularity in the services available. As part of the analysis of in situ images, cloud computing offers the possibility to set up an automated tool to process all the data despite the variety of disturbances and the data volume. Through decomposition of image processing in several tasks, implemented as web services, the composition of these services allows us to adapt the treatment to the conditions of each of the data

12

Atif, Jamal. "Recalage non-rigide multimodal des images radiologiques par information mutuelle quadratique normalisée". Paris 11, 2004. http://www.theses.fr/2004PA112337.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

13

Delecraz, Sébastien. "Approches jointes texte/image pour la compréhension multimodale de documents". Electronic Thesis or Diss., Aix-Marseille, 2018. http://www.theses.fr/2018AIXM0634.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Les mécanismes de compréhension chez l'être humain sont par essence multimodaux. Comprendre le monde qui l'entoure revient chez l'être humain à fusionner l'information issue de l'ensemble de ses récepteurs sensoriels. La plupart des documents utilisés en traitement automatique de l'information sont multimodaux. Par exemple, du texte et des images dans des documents textuels ou des images et du son dans des documents vidéo. Cependant, les traitements qui leurs sont appliqués sont le plus souvent monomodaux. Le but de cette thèse est de proposer des traitements joints s'appliquant principalement au texte et à l'image pour le traitement de documents multimodaux à travers deux études : l'une portant sur la fusion multimodale pour la reconnaissance du rôle du locuteur dans des émissions télévisuelles, l'autre portant sur la complémentarité des modalités pour une tâche d'analyse linguistique sur des corpus d'images avec légendes. Pour la première étude nous nous intéressons à l'analyse de documents audiovisuels provenant de chaînes d'information télévisuelle. Nous proposons une approche utilisant des réseaux de neurones profonds pour la création d'une représentation jointe multimodale pour les représentations et la fusion des modalités. Dans la seconde partie de cette thèse nous nous intéressons aux approches permettant d'utiliser plusieurs sources d'informations multimodales pour une tâche monomodale de traitement automatique du langage, afin d'étudier leur complémentarité. Nous proposons un système complet de correction de rattachements prépositionnels utilisant de l'information visuelle, entraîné sur un corpus multimodal d'images avec légendes
The human faculties of understanding are essentially multimodal. To understand the world around them, human beings fuse the information coming from all of their sensory receptors. Most of the documents used in automatic information processing contain multimodal information, for example text and image in textual documents or image and sound in video documents, however the processings used are most often monomodal. The aim of this thesis is to propose joint processes applying mainly to text and image for the processing of multimodal documents through two studies: one on multimodal fusion for the speaker role recognition in television broadcasts, the other on the complementarity of modalities for a task of linguistic analysis on corpora of images with captions. In the first part of this study, we interested in audiovisual documents analysis from news television channels. We propose an approach that uses in particular deep neural networks for representation and fusion of modalities. In the second part of this thesis, we are interested in approaches allowing to use several sources of multimodal information for a monomodal task of natural language processing in order to study their complementarity. We propose a complete system of correction of prepositional attachments using visual information, trained on a multimodal corpus of images with captions

14

Fares, Mireille. "Multimodal Expressive Gesturing With Style". Electronic Thesis or Diss., Sorbonne université, 2023. http://www.theses.fr/2023SORUS017.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

La génération de gestes expressifs permet aux agents conversationnels animés (ACA) d'articuler un discours d'une manière semblable à celle des humains. Le thème central du manuscrit est d'exploiter et contrôler l'expressivité comportementale des ACA en modélisant le comportement multimodal que les humains utilisent pendant la communication. Le but est (1) d’exploiter la prosodie de la parole, la prosodie visuelle et le langage dans le but de synthétiser des comportements expressifs pour les ACA; (2) de contrôler le style des gestes synthétisés de manière à pouvoir les générer avec le style de n'importe quel locuteur. Nous proposons un modèle de synthèse de gestes faciaux à partir du texte et la parole; et entraîné sur le corpus TEDx que nous avons collecté. Nous proposons ZS-MSTM 1.0, une approche permettant de synthétiser des gestes stylisés du haut du corps à partir du contenu du discours d'un locuteur source et correspondant au style de tout locuteur cible. Il est entraîné sur le corpus PATS qui inclut des données multimodales de locuteurs ayant des styles de comportement différents. Il n'est pas limité aux locuteurs de PATS, et génère des gestes dans le style de n'importe quel nouveau locuteur vu ou non par notre modèle, sans entraînement supplémentaire, ce qui rend notre approche «zero-shot». Le style comportemental est modélisé sur les données multimodales des locuteurs - langage, gestes et parole - et indépendamment de l'identité du locuteur. Nous proposons ZS-MSTM 2.0 pour générer des gestes faciaux stylisés en plus des gestes du haut du corps. Ce dernier est entraîné sur une extension de PATS, qui inclut des actes de dialogue et des repères faciaux en 2D
The generation of expressive gestures allows Embodied Conversational Agents (ECA) to articulate the speech intent and content in a human-like fashion. The central theme of the manuscript is to leverage and control the ECAs’ behavioral expressivity by modelling the complex multimodal behavior that humans employ during communication. The driving forces of the Thesis are twofold: (1) to exploit speech prosody, visual prosody and language with the aim of synthesizing expressive and human-like behaviors for ECAs; (2) to control the style of the synthesized gestures such that we can generate them with the style of any speaker. With these motivations in mind, we first propose a semantically aware and speech-driven facial and head gesture synthesis model trained on the TEDx Corpus which we collected. Then we propose ZS-MSTM 1.0, an approach to synthesize stylized upper-body gestures, driven by the content of a source speaker’s speech and corresponding to the style of any target speakers, seen or unseen by our model. It is trained on PATS Corpus which includes multimodal data of speakers having different behavioral style. ZS-MSTM 1.0 is not limited to PATS speakers, and can generate gestures in the style of any newly coming speaker without further training or fine-tuning, rendering our approach zero-shot. Behavioral style is modelled based on multimodal speakers’ data - language, body gestures, and speech - and independent from the speaker’s identity ("ID"). We additionally propose ZS-MSTM 2.0 to generate stylized facial gestures in addition to the upper-body gestures. We train ZS-MSTM 2.0 on PATS Corpus, which we extended to include dialog acts and 2D facial landmarks

15

Aron, Michaël. "Acquisition et modélisation de données articulatoires dans un contexte multimodal". Thesis, Nancy 1, 2009. http://www.theses.fr/2009NAN10097/document.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

La connaissance des positions et des mouvements des articulateurs (lèvres, palais, langue...) du conduit vocal lors de la phonation est un enjeu crucial pour l’étude de la parole. Puisqu’il n’existe pas encore de système permettant l’acquisition de ces positions et de ces mouvements, ce travail de thèse s’intéresse à la fusion de plusieurs modalités d’imagerie et de capteurs de localisation pour l’acquisition des positions des articulateurs dans l’espace et dans le temps. Nous décrivons un ensemble de protocoles et de méthodes pour obtenir et fusionner automatiquement un important volume de données échographiques (imageant en 2D la dynamique de la langue), stéréoscopiques (imageant en 3D la dynamique des lèvres), de capteurs électromagnétiques (capturant des points 3D de la langue et du visage), et d’Imagerie par Résonance Magnétique (IRM) pour acquérir en 3D l’ensemble des articulateurs en position statique. Nos contributions concernent plus particulièrement la synchronisation temporelle, le recalage spatial des données et l’extraction automatique des formes à partir des données (suivi de la langue dans les images échographiques). Nous évaluons la précision sur chaque donnée extraite, ainsi que sur l’ensemble des données fusionnées. Nous les validons enfin sur un modèle articulatoire existant. Ces travaux permettent l’obtention de données bien fondées pour la mise en place et l’étude de modèles articulatoires pour des applications en parole
There is no single technique that will allow all relevant behaviour of the speech articulators (lips, tongue, palate...) to be spatially ant temporally acquired. Thus, this thesis investigates the fusion of multimodal articulatory data. A framework is described in order to acquire and fuse automatically an important database of articulatory data. This includes: 2D Ultrasound (US) data to recover the dynamic of the tongue, stereovision data to recover the 3D dynamic of the lips, electromagnetic sensors that provide 3D position of points on the face and the tongue, and 3D Magnetic Resonance Imaging (MRI) that depict the vocal tract for various sustained articulations. We investigate the problems of the temporal synchronization and the spatial registration between all these modalities, and also the extraction of the shape articulators from the data (tongue tracking in US images). We evaluate the uncertainty of our system by quantifying the spatial and temporal inaccuracies of the components of the system, both individually and in combination. Finally, the fused data are evaluated on an existing articulatory model to assess their quality for an application in speech production

16

Ouenniche, Kaouther. "Multimodal deep learning for audiovisual production". Electronic Thesis or Diss., Institut polytechnique de Paris, 2023. http://www.theses.fr/2023IPPAS020.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Dans le contexte en constante évolution du contenu audiovisuel, la nécessité cruciale d'automatiser l'indexation et l'organisation des archives s'est imposée comme un objectif primordial. En réponse, cette recherche explore l'utilisation de techniques d'apprentissage profond pour automatiser l'extraction de métadonnées diverses dans les archives, améliorant ainsi leur accessibilité et leur réutilisation. La première contribution de cette recherche concerne la classification des mouvements de caméra. Il s'agit d'un aspect crucial de l'indexation du contenu, car il permet une catégorisation efficace et une récupération du contenu vidéo en fonction de la dynamique visuelle qu'il présente. L'approche proposée utilise des réseaux neuronaux convolutionnels 3D avec des blocs résiduels. Une approche semi-automatique pour la construction d'un ensemble de données fiable sur les mouvements de caméra à partir de vidéos disponibles au public est également présentée, réduisant au minimum le besoin d'intervention manuelle. De plus, la création d'un ensemble de données d'évaluation exigeant, comprenant des vidéos de la vie réelle tournées avec des caméras professionnelles à différentes résolutions, met en évidence la robustesse et la capacité de généralisation de la technique proposée, atteignant un taux de précision moyen de 94 %.La deuxième contribution se concentre sur la tâche de Vidéo Question Answering. Dans ce contexte, notre Framework intègre un Transformers léger et un module de cross modalité. Ce module utilise une corrélation croisée pour permettre un apprentissage réciproque entre les caractéristiques visuelles conditionnées par le texte et les caractéristiques textuelles conditionnées par la vidéo. De plus, un scénario de test adversarial avec des questions reformulées met en évidence la robustesse du modèle et son applicabilité dans le monde réel. Les résultats expérimentaux sur MSVD-QA et MSRVTT-QA, valident la méthodologie proposée, avec une précision moyenne de 45 % et 42 % respectivement. La troisième contribution de cette recherche aborde le problème de vidéo captioning. Le travail introduit intègre un module de modality attention qui capture les relations complexes entre les données visuelles et textuelles à l'aide d'une corrélation croisée. De plus, l'intégration de l'attention temporelle améliore la capacité du modèle à produire des légendes significatives en tenant compte de la dynamique temporelle du contenu vidéo. Notre travail intègre également une tâche auxiliaire utilisant une fonction de perte contrastive, ce qui favorise la généralisation du modèle et une compréhension plus approfondie des relations intermodales et des sémantiques sous-jacentes. L'utilisation d'une architecture de transformer pour l'encodage et le décodage améliore considérablement la capacité du modèle à capturer les interdépendances entre les données textuelles et vidéo. La recherche valide la méthodologie proposée par une évaluation rigoureuse sur MSRVTT, atteignant des scores BLEU4, ROUGE et METEOR de 0,4408, 0,6291 et 0,3082 respectivement. Notre approche surpasse les méthodes de l'état de l'art, avec des gains de performance allant de 1,21 % à 1,52 % pour les trois métriques considérées. En conclusion, ce manuscrit offre une exploration holistique des techniques basées sur l'apprentissage profond pour automatiser l'indexation du contenu télévisuel, en abordant la nature laborieuse et chronophage de l'indexation manuelle. Les contributions englobent la classification des types de mouvements de caméra, la vidéo question answering et la vidéo captioning, faisant avancer collectivement l'état de l'art et fournissant des informations précieuses pour les chercheurs dans le domaine. Ces découvertes ont non seulement des applications pratiques pour la recherche et l'indexation de contenu, mais contribuent également à l'avancement plus large des méthodologies d'apprentissage profond dans le contexte multimodal
Within the dynamic landscape of television content, the critical need to automate the indexing and organization of archives has emerged as a paramount objective. In response, this research explores the use of deep learning techniques to automate the extraction of diverse metadata from television archives, improving their accessibility and reuse.The first contribution of this research revolves around the classification of camera motion types. This is a crucial aspect of content indexing as it allows for efficient categorization and retrieval of video content based on the visual dynamics it exhibits. The novel approach proposed employs 3D convolutional neural networks with residual blocks, a technique inspired by action recognition methods. A semi-automatic approach for constructing a reliable camera motion dataset from publicly available videos is also presented, minimizing the need for manual intervention. Additionally, the creation of a challenging evaluation dataset, comprising real-life videos shot with professional cameras at varying resolutions, underlines the robustness and generalization power of the proposed technique, achieving an average accuracy rate of 94%.The second contribution centers on the demanding task of Video Question Answering. In this context, we explore the effectiveness of attention-based transformers for facilitating grounded multimodal learning. The challenge here lies in bridging the gap between the visual and textual modalities and mitigating the quadratic complexity of transformer models. To address these issues, a novel framework is introduced, which incorporates a lightweight transformer and a cross-modality module. This module leverages cross-correlation to enable reciprocal learning between text-conditioned visual features and video-conditioned textual features. Furthermore, an adversarial testing scenario with rephrased questions highlights the model's robustness and real-world applicability. Experimental results on benchmark datasets, such as MSVD-QA and MSRVTT-QA, validate the proposed methodology, with an average accuracy of 45% and 42%, respectively, which represents notable improvements over existing approaches.The third contribution of this research addresses the multimodal video captioning problem, a critical aspect of content indexing. The introduced framework incorporates a modality-attention module that captures the intricate relationships between visual and textual data using cross-correlation. Moreover, the integration of temporal attention enhances the model's ability to produce meaningful captions, considering the temporal dynamics of video content. Our work also incorporates an auxiliary task employing a contrastive loss function, which promotes model generalization and a deeper understanding of inter-modal relationships and underlying semantics. The utilization of a transformer architecture for encoding and decoding significantly enhances the model's capacity to capture interdependencies between text and video data. The research validates the proposed methodology through rigorous evaluation on the MSRVTT benchmark,viachieving BLEU4, ROUGE, and METEOR scores of 0.4408, 0.6291 and 0.3082, respectively. In comparison to state-of-the-art methods, this approach consistently outperforms, with performance gains ranging from 1.21% to 1.52% across the three metrics considered.In conclusion, this manuscript offers a holistic exploration of deep learning-based techniques to automate television content indexing, addressing the labor-intensive and time-consuming nature of manual indexing. The contributions encompass camera motion type classification, VideoQA, and multimodal video captioning, collectively advancing the state of the art and providing valuable insights for researchers in the field. These findings not only have practical applications for content retrieval and indexing but also contribute to the broader advancement of deep learning methodologies in the multimodal context

17

Kruk, Dominika. "Multimodal Imaging of the heart muscle - Analysis and visualization to aided diagnosis". Thesis, Bourgogne Franche-Comté, 2019. http://www.theses.fr/2019UBFCK070.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Le cœur joue un rôle vital dans le fonctionnement du corps humain. La fonction du cœur humain est de pomper le sang dans tout le corps, fournissant de l’oxygène et des nutriments aux tissus et en éliminant le dioxyde de carbone et d’autres déchets. Les maladies cardiovasculaires sont la première cause de décès dans le monde. Les maladies cardiaques sont principalement liées à un processus appelé athérosclérose. Ce processus cause un flux sanguin plus difficile à travers les artères et finalement il peut arrêter le flux sanguin. Il peut conduire à une crise cardiaque et un accident vasculaire cérébral. Un diagnostic précoce et précis des maladies cardiovasculaires joue un rôle important dans l’amélioration de la vie des personnes atteintes de maladies cardiaques. L’imagerie médicale est largement utilisée dans le diagnostic et le suivi des maladies cardiovasculaires. L’imagerie médicale est un processus de collecte d’informations sur un lieu d’intérêt dans le corps en utilisant une propriété caractéristique prédéfinie qui est affichée sous la forme d’une image. Les techniques d’imagerie permettent aux cliniciens et aux scientifiques de voir à l’intérieur du corps et de fournir une mine d’informations.Les progrès récents en imagerie médicale avec des contributions significatives de nombreux domaines de la science, tels que la physique médicale, la chimie, le génie électrique et informatique ont un impact important sur le diagnostic radiologique. Le développement de l’ingénierie et de l’informatique a donné la possibilité d’obtenir des images multidimensionnelles à haute résolution de la zone d'intérêt ciblée. Ce type d’images donne une information complexe pour analyser la structure et la fonction des organes pour un diagnostic assisté par ordinateur, plus précis ou destiné à développer ou diriger de nouvelles stratégies thérapeutiques. Le but de cette thèse est de développer un nouvel outil informatique qui aidera à obtenir des informations plus riches et pertinentes sur le myocarde à l'aide du traitement d'images.L’objectif principal de cette thèse est de développer une méthode complète combinant la tomographie par l'émission de positrons (PET) et l’enregistrement d’images par résonance magnétique (IRM). Pour faire face à la différence entre ces deux modalités, une méthode basée sur l’enregistrement des images présegmentées pour les deux modalités est proposée. La segmentation des images peut aider à extraire le myocarde de l’arrière-plan et se concentrer uniquement sur son enregistrement, sans l’impact de la structure environnante
The heart plays a vital role in the functioning of the human body. The function of the human heart is pumping blood throughout the body, supplying oxygen and nutrients to the tissues and removing carbon dioxide and other wastes. Cardiovascular diseases are the first cause of death worldwide. Heart diseases are mainly related to a process called atherosclerosis. This process caused harder blood flow through arteries and finally it can stop the blood flow. It can lead to heart attack and stroke. Early and accurate diagnosis of cardiovascular diseases plays an important role in improving the life of population afflicted heart diseases. Medical imaging is widely used in the diagnosis and monitoring of cardiovascular diseases. Medical imaging is a process of collecting information about a place of interest in the body using a predefined characteristic property that is displayed in the form of an image. Imaging techniques allow clinicians and scientist to see inside the body and provide a wealth of information.Recent advances in medical imaging with meaningful contributions from many fields of science, such us medical physic, chemistry, electrical and computer engineering, and computer science have a large impact on diagnostic radiology. The development of engineering and computer science has given the possibility to obtain high-resolution multidimensional images of the place of interest in the body. This kind of images gives a complex information to analyze the structure and function of the organs for computer-aided diagnosis, more accurate diagnosis or to develop or to direct new therapeutic strategies. The aim of this thesis is to develop a new method, which will allow to obtain more complex and accurate information about myocardial disease by using a computer science's and image processing methods.The main objective of this thesis is to develop a complete method allowing Positron Emission Tomography (PET) and Magnetic Resonance Images (MRI) registration of cardiac images. The main difficulties of the PET-MRI registration are the differences between these two modalities. To decrease these differences, the segmentation method were applied to PET and MRI images. Segmentation of the images can help to extract myocardium from the background and focus just on the registration of the myocardium without the impact of the structure around

18

Meseguer, Brocal Gabriel. "Multimodal analysis : informed content estimation and audio source separation". Electronic Thesis or Diss., Sorbonne université, 2020. http://www.theses.fr/2020SORUS111.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Cette thèse propose l'étude de l'apprentissage multimodal dans le contexte de signaux musicaux. Tout au long de ce manuscrit, nous nous concentrerons sur l'interaction entre les signaux audio et les informations textuelles. Parmi les nombreuses sources de texte liées à la musique qui peuvent être utilisées (par exemple les critiques, les métadonnées ou les commentaires des réseaux sociaux), nous nous concentrerons sur les paroles. La voix chantée relie directement le signal audio et les informations textuelles d'une manière unique, combinant mélodie et paroles où une dimension linguistique complète l'abstraction des instruments de musique. Notre étude se focalise sur l'interaction audio et paroles pour cibler la séparation de sources et l'estimation de contenu informé. Les stimuli du monde réel sont produits par des phénomènes complexes et leur interaction constante dans divers domaines. Notre compréhension apprend des abstractions utiles qui fusionnent différentes modalités en une représentation conjointe. L'apprentissage multimodal décrit des méthodes qui analysent les phénomènes de différentes modalités et leur interaction afin de s'attaquer à des tâches complexes. Il en résulte des représentations meilleures et plus riches qui améliorent les performances des méthodes d'apprentissage automatique actuelles. Pour développer notre analyse multimodale, nous devons d'abord remédier au manque de données contenant une voix chantée avec des paroles alignées. Ces données sont obligatoires pour développer nos idées. Par conséquent, nous étudierons comment créer une telle base de données en exploitant automatiquement les ressources du World Wide Web. La création de ce type de base de données est un défi en soi qui soulève de nombreuses questions de recherche. Nous travaillons constamment avec le paradoxe classique de la `` poule ou de l'œuf '': l'acquisition et le nettoyage de ces données nécessitent des modèles précis, mais il est difficile de former des modèles sans données. Nous proposons d'utiliser le paradigme enseignant-élève pour développer une méthode où la création de bases de données et l'apprentissage de modèles ne sont pas considérés comme des tâches indépendantes mais plutôt comme des efforts complémentaires. Dans ce processus, les paroles et les annotations non-expertes de karaoké décrivent les paroles comme une séquence de notes alignées sur le temps avec leurs informations textuelles associées. Nous lions ensuite chaque annotation à l'audio correct et alignons globalement les annotations dessus
This dissertation proposes the study of multimodal learning in the context of musical signals. Throughout, we focus on the interaction between audio signals and text information. Among the many text sources related to music that can be used (e.g. reviews, metadata, or social network feedback), we concentrate on lyrics. The singing voice directly connects the audio signal and the text information in a unique way, combining melody and lyrics where a linguistic dimension complements the abstraction of musical instruments. Our study focuses on the audio and lyrics interaction for targeting source separation and informed content estimation. Real-world stimuli are produced by complex phenomena and their constant interaction in various domains. Our understanding learns useful abstractions that fuse different modalities into a joint representation. Multimodal learning describes methods that analyse phenomena from different modalities and their interaction in order to tackle complex tasks. This results in better and richer representations that improve the performance of the current machine learning methods. To develop our multimodal analysis, we need first to address the lack of data containing singing voice with aligned lyrics. This data is mandatory to develop our ideas. Therefore, we investigate how to create such a dataset automatically leveraging resources from the World Wide Web. Creating this type of dataset is a challenge in itself that raises many research questions. We are constantly working with the classic ``chicken or the egg'' problem: acquiring and cleaning this data requires accurate models, but it is difficult to train models without data. We propose to use the teacher-student paradigm to develop a method where dataset creation and model learning are not seen as independent tasks but rather as complementary efforts. In this process, non-expert karaoke time-aligned lyrics and notes describe the lyrics as a sequence of time-aligned notes with their associated textual information. We then link each annotation to the correct audio and globally align the annotations to it. For this purpose, we use the normalized cross-correlation between the voice annotation sequence and the singing voice probability vector automatically, which is obtained using a deep convolutional neural network. Using the collected data we progressively improve that model. Every time we have an improved version, we can in turn correct and enhance the data

19

Rabhi, Sara. "Optimized deep learning-based multimodal method for irregular medical timestamped data". Electronic Thesis or Diss., Institut polytechnique de Paris, 2022. http://www.theses.fr/2022IPPAS003.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

L'adoption des dossiers médicaux électroniques dans les systèmes d'information des hôpitaux a conduit à la définition de bases de données regroupant divers types de données telles que des notes cliniques textuelles, des événements médicaux longitudinaux et des informations statiques sur les patients. Toutefois, les données ne sont renseignées que lors des consultations médicales ou des séjours hospitaliers. La fréquence de ces visites varie selon l’état de santé du patient. Ainsi, un système capable d'exploiter les différents types de données collectées à différentes échelles de temps est essentiel pour reconstruire la trajectoire de soin du patient, analyser son historique et délivrer des soins adaptés. Ce travail de thèse aborde deux défis principaux du traitement des données médicales : Représenter la séquence des observations médicales à échantillonnage irrégulier et optimiser l'extraction des événements médicaux à partir des textes de notes cliniques. Notre objectif principal est de concevoir une représentation multimodale de la trajectoire de soin du patient afin de résoudre les problèmes de prédiction clinique. Notre premier travail porte sur la modélisation des séries temporelles médicales irrégulières afin d'évaluer l'importance de considérer les écarts de temps entre les visites médicales dans la représentation de la trajectoire de soin d'un patient donné. À cette fin, nous avons mené une étude comparative entre les réseaux de neurones récurrents, les modèles basés sur l’architecture « Transformer » et les techniques de représentation du temps. De plus, l'objectif clinique était de prédire les complications de la rétinopathie chez les patients diabétiques de type 1 de la base de données française CaRéDIAB (Champagne Ardenne Réseau Diabète) en utilisant leur historique de mesures HbA1c. Les résultats de l'étude ont montré que le modèle « Transformer », combiné à la représentation `Soft-One-Hot` des écarts temporels a conduit à un score AUC de 88,65% (spécificité de 85,56%, sensibilité de 83,33%), soit une amélioration de 4,3% par rapport au modèle « LSTM ». Motivés par ces résultats, nous avons étendu notre étude à des séries temporelles multivariées plus courtes et avons prédit le risque de mortalité à l'hôpital pour les patients présents dans la base de données MIMIC-III. L'architecture proposée, HiTT, a amélioré le score AUC de 5 % par rapport à l’architecture « Transformer ». Dans la deuxième étape, nous nous sommes intéressés à l'extraction d'informations médicales à partir des comptes rendus médicaux afin d'enrichir la trajectoire de soin du patient. En particulier, les réseaux de neurones basés sur le module « Transformer » ont montré des résultats encourageants dans d'extraction d'informations médicales. Cependant, ces modèles complexes nécessitent souvent un grand corpus annoté. Cette exigence est difficile à atteindre dans le domaine médical car elle nécessite l'accès à des données privées de patients et des annotateurs experts. Pour réduire les coûts d'annotation, nous avons exploré les stratégies d'apprentissage actif qui se sont avérées efficaces dans de nombreuses tâches, notamment la classification de textes, l’analyse d’image et la reconnaissance vocale. En plus des méthodes existantes, nous avons défini une stratégie d'apprentissage actif, Hybrid Weighted Uncertainty Sampling, qui utilise la représentation cachée du texte donnée par le modèle pour mesurer la représentativité des échantillons. Une simulation utilisant les données du challenge i2b2-2010 a montré que la métrique proposée réduit le coût d'annotation de 70% pour atteindre le même score de performance que l'apprentissage passif. Enfin, nous avons combiné des séries temporelles médicales multivariées et des concepts médicaux extraits des notes cliniques de la base de données MIMIC-III pour entraîner une architecture multimodale. Les résultats du test ont montré une amélioration de 5,3% en considérant les informations textuelles
The wide adoption of Electronic Health Records in hospitals’ information systems has led to the definition of large databases grouping various types of data such as textual notes, longitudinal medical events, and tabular patient information. However, the records are only filled during consultations or hospital stays that depend on the patient’s state, and local habits. A system that can leverage the different types of data collected at different time scales is critical for reconstructing the patient’s health trajectory, analyzing his history, and consequently delivering more adapted care.This thesis work addresses two main challenges of medical data processing: learning to represent the sequence of medical observations with irregular elapsed time between consecutive visits and optimizing the extraction of medical events from clinical notes. Our main goal is to design a multimodal representation of the patient’s health trajectory to solve clinical prediction problems. Our first work built a framework for modeling irregular medical time series to evaluate the importance of considering the time gaps between medical episodes when representing a patient’s health trajectory. To that end, we conducted a comparative study of sequential neural networks and irregular time representation techniques. The clinical objective was to predict retinopathy complications for type 1 diabetes patients in the French database CaRéDIAB (Champagne Ardenne Réseau Diabetes) using their history of HbA1c measurements. The study results showed that the attention-based model combined with the soft one-hot representation of time gaps led to AUROC score of 88.65% (specificity of 85.56%, sensitivity of 83.33%), an improvement of 4.3% when compared to the LSTM-based model. Motivated by these results, we extended our framework to shorter multivariate time series and predicted in-hospital mortality for critical care patients of the MIMIC-III dataset. The proposed architecture, HiTT, improved the AUC score by 5% over the Transformer baseline. In the second step, we focused on extracting relevant medical information from clinical notes to enrich the patient’s health trajectories. Particularly, Transformer-based architectures showed encouraging results in medical information extraction tasks. However, these complex models require a large, annotated corpus. This requirement is hard to achieve in the medical field as it necessitates access to private patient data and high expert annotators. To reduce annotation cost, we explored active learning strategies that have been shown to be effective in tasks such as text classification, information extraction, and speech recognition. In addition to existing methods, we defined a Hybrid Weighted Uncertainty Sampling active learning strategy that takes advantage of the contextual embeddings learned by the Transformer-based approach to measuring the representativeness of samples. A simulated study using the i2b2-2010 challenge dataset showed that our proposed metric reduces the annotation cost by 70% to achieve the same score as passive learning. Lastly, we combined multivariate medical time series and medical concepts extracted from clinical notes of the MIMIC-III database to train a multimodal transformer-based architecture. The test results of the in-hospital mortality task showed an improvement of 5.3% when considering additional text data. This thesis contributes to patient health trajectory representation by alleviating the burden of episodic medical records and the manual annotation of free-text notes

20

Pouteau, Xavier. "Dialogue de commande multimodal en milieu opérationnel : une communication naturelle pour l'utilisateur ?" Nancy 1, 1995. http://www.theses.fr/1995NAN10419.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

La communication multimodale entre un opérateur et une machine est souvent abordée comme un élément de solution à la complexité croissante des systèmes commandés. Pour autant, la propriété "multimodale" d'un système ne lui confère pas nécessairement la qualité d'être "naturel", ni efficace ou acceptable. Le travail présenté consiste donc dans une première partie à caractériser la communication multimodale du point de vue de l'utilisateur, c'est à dire par les modes effectivement utilisés par celui-ci (la parole et le geste), en situant notamment les niveaux d'interaction envisageables entre parole et geste dans l'optique d'une mise en oeuvre, et en faisant la distinction entre une intégration de ces modes et une intégration de dispositifs les supportants. Sur cette base, une analyse de systèmes existants conduit à un point de vue synthétique, portant que le contenu fonctionnel d'un système de dialogue de commande multimodal. Dans une seconde partie, nous affinons tout d'abord l'analyse du contenu fonctionnel d'un système de dialogue multimodal, en tentant notamment de stabiliser les notions de tâche et de dialogue dans le cadre d'un système de commande professionnel. Dans ce cadre, l'interprétation d'énoncés de commande est abordée comme l'identification des réactions du système à un énoncé. En situant cette problématique dans l'optique d'une intégration de la parole et du geste, nous décrivons la mise en oeuvre des différents cas de figure envisageables de manière contradictoire avec d'autres approches. Cette étude détaillée conduit notamment à mettre en évidence les limites possibles d'une communication multimodale "naturelle", déclinée selon les logiques de faire et de faire faire identifiées dans la première partie, en montrant que ces limites relèvent de choix de conception du système de dialogue. Nous proposons également une première extension à l'intégration de la parole et du geste en dépassant la seule fonction déictique de celui-ci. Enfin, le dernier chapitre décrit l'ensemble des architectures matérielles et logicielle dans les différentes réalisations effectuées, où les contraintes de mise en oeuvre ainsi que les choix effectuées en regard des modèles retenus au chapitre précédent sont présentés. Nous tentons également de montrer les limites de ces choix, en proposant des développements ultérieurs possibles en regard des modèles retenus au chapitre précédent sont présentés. Nous tentons également de montrer les limites de ces choix, en proposant des développements ultérieurs possibles en regard de la disponibilité technologique acturelle ou envisageable à court/moyen terme dans le but de construire des systèmes de dialogue robustes offrant une réelle communication multimodale

21

Ma, Ta-Yu. "Modèle dynamique de transport basé sur les activités". Marne-la-vallée, ENPC, 2007. https://pastel.archives-ouvertes.fr/pastel-00003309.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Le travail de recherche porte sur deux thèmes: 1. Développement d’un modèle dynamique multimodal basé sur les activités ; 2. Développement de méthodes de résolution de l’équilibre du réseau multimodal dynamique. Nous proposons un modèle dynamique multimodal simulant l’enchaînement des déplacements basé sur les activités. Deux nouvelles méthodes de résolution du problème d’équilibre du réseau sont proposées : 1. L’algorithme de colonie de fourmis en discrétisation temporelle ; 2. La méthode de l’Entropie Relative. Cette dernière constitue une avancée méthodologique qui considère que l’équilibre du réseau est un événement rare parmi les états possibles du réseau. Pour réduire les besoins en moyens de calcul pour l’application dans un grand réseau, nous simulons les voyageurs par paquets en nous appuyant sur un nouveau modèle macroscopique de trafic en coordonnées Lagrangiennnes. Ce modèle permet de décrire la propagation des paquets conformément au modèle macroscopique du premier ordre.

22

Znaidia, Amel. "Handling Imperfections for Multimodal Image Annotation". Phd thesis, Ecole Centrale Paris, 2014. http://tel.archives-ouvertes.fr/tel-01012009.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

This thesis deals with multimodal image annotation in the context of social media. We seek to take advantage of textual (tags) and visual information in order to enhance the image annotation performances. However, these tags are often noisy, overly personalized and only a few of them are related to the semantic visual content of the image. In addition, when combining prediction scores from different classifiers learned on different modalities, multimodal image annotation faces their imperfections (uncertainty, imprecision and incompleteness). Consequently, we consider that multimodal image annotation is subject to imperfections at two levels: the representation and the decision. Inspired from the information fusion theory, we focus in this thesis on defining, identifying and handling imperfection aspects in order to improve image annotation.

23

Zablocki, Éloi. "Multimodal machine learning : complementarity of textual and visual contexts". Electronic Thesis or Diss., Sorbonne université, 2019. http://www.theses.fr/2019SORUS409.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

L'interaction entre le langage et la vision reste relativement peu explorée malgré un intérêt grandissant. Au-delà des différences triviales entre textes et images, ces deux modalités portent des sémantiques distinctes. D'une part, le langage peut exprimer une sémantique de haut niveau sur le monde, mais il est biaisé dans le sens qu’une grande partie de son contenu est implicite (sens commun). D'autre part, les images sont des agrégats de niveaux inférieurs informations, mais elles donnent accès plus directement aux statistiques du monde réel et peuvent être utilisées pour ancrer l'apprentissage de la sémantique d'un objet. Dans cette thèse, nous exploitons les connexions et nous tirons parti de la complémentarité entre langage et vision. Premièrement, les capacités de compréhension du langage naturel peuvent être améliorer à l'aide de la modalité visuelle, car le langage est naturellement ancré dans le monde visuel. En particulier, représenter la sémantique d'un mot est un problème de longue date pour la communauté du traitement de la langue naturel, et, pour améliorer les approches traditionnelles, il est essentiel de tirer parti des informations visuelles. Nous montrons que les représentations linguistiques peuvent être enrichies par des informations visuelles et nous nous concentrons particulièrement sur les contextes visuels et l'organisation spatiale des scènes. Nous présentons deux modèles pour apprendre des représentations multimodales sémantiques pour des mots ou des phrases, à l’aide d’images. A l'inverse, l'intégration du langage à la vision ouvre la possibilité d'élargir les horizons et les tâches de la communauté de la vision par ordinateur. En supposant que le langage contienne des informations visuelles sur les objets et que celles-ci puissent être capturées dans une représentation sémantique, nous nous concentrons sur la tâche de reconnaissance zero-shot, qui consiste à reconnaître des objets qui n'ont jamais été vus grâce aux connaissances linguistiques acquises auparavant. En particulier, nous montrons que les représentations linguistiques contiennent non seulement des informations visuelles sur l'apparence visuelle des objets, mais également sur leur environnement visuel typique et leurs fréquences d'occurrence visuelle. Nous présentons ainsi un modèle de reconnaissance zero-shot tirant parti du contexte visuel d'un objet et de sa probabilité d'occurrence visuelle, en plus de la région d'intérêt, comme dans les approches traditionnelles. Enfin, nous présentons des pistes de recherche potentielles pour exploiter davantage les liens entre langage et images et pour mieux comprendre le fossé sémantique entre les deux modalités
Research looking at the interaction between language and vision, despite a growing interest, is relatively underexplored. Beyond trivial differences between texts and images, these two modalities have non overlapping semantics. On the one hand, language can express high-level semantics about the world, but it is biased in the sense that a large portion of its content is implicit (common-sense or implicit knowledge). On the other hand, images are aggregates of lower-level information, but they can depict a more direct view of real-world statistics and can be used to ground the meaning of objects. In this thesis, we exploit connections and leverage complementarity between language and vision. First, natural language understanding capacities can be augmented with the help of the visual modality, as language is known to be grounded in the visual world. In particular, representing language semantics is a long-standing problem for the natural language processing community, and to further improve traditional approaches towards that goal, leveraging visual information is crucial. We show that semantic linguistic representations can be enriched by visual information, and we especially focus on visual contexts and spatial organization of scenes. We present two models to learn grounded word or sentence semantic representations respectively, with the help of images. Conversely, integrating language with vision brings the possibility of expanding the horizons and tasks of the vision community. Assuming that language contains visual information about objects, and that this can be captured within linguistic semantic representation, we focus on the zero-shot object recognition task, which consists in recognizing objects that have never been seen thanks to linguistic knowledge acquired about the objects beforehand. In particular, we argue that linguistic representations not only contain visual information about the visual appearance of objects but also about their typical visual surroundings and visual occurrence frequencies. We thus present a model for zero-shot recognition that leverages the visual context of an object, and its visual occurrence likelihood, in addition to the region of interest as done in traditional approaches. Finally, we present prospective research directions to further exploit connections between language and images and to better understand the semantic gap between the two modalities

24

Mitra, Jhimli. "Multimodal Image Registration applied to Magnetic Resonance and Ultrasound Prostatic Images". Phd thesis, Université de Bourgogne, 2012. http://tel.archives-ouvertes.fr/tel-00786032.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

This thesis investigates the employment of different deformable registration techniques to register pre-operative magnetic resonance and inter-operative ultrasound images during prostate biopsy. Accurate registration ensures appropriate biopsy sampling of malignant prostate tissues and reduces the rate of re-biopsies. Therefore, we provide comparisons and experimental results for some landmark- and intensity-based registration methods: thin-plate splines, free-form deformation with B-splines. The primary contribution of this thesis is a new spline-based diffeomorphic registration framework for multimodal images. In this framework we ensure diffeomorphism of the thin-plate spline-based transformation by incorporating a set of non-linear polynomial functions. In order to ensure clinically meaningful deformations we also introduce the approximating thin-plate splines so that the solution is obtained by a joint-minimization of the surface similarities of the segmented prostate regions and the thin-plate spline bending energy. The method to establish point correspondences for the thin-plate spline-based registration is a geometric method based on prostate shape symmetry but a further improvement is suggested by computing the Bhattacharyya metric on shape-context based representation of the segmented prostate contours. The proposed deformable framework is computationally expensive and is not well-suited for registration of inter-operative images during prostate biopsy. Therefore, we further investigate upon an off-line learning procedure to learn the deformation parameters of a thin-plate spline from a training set of pre-operative magnetic resonance and its corresponding inter-operative ultrasound images and build deformation models by applying spectral clustering on the deformation parameters. Linear estimations of these deformation models are then applied on a test set of inter-operative and pre-operative ultrasound and magnetic resonance images respectively. The problem of finding the pre-operative magnetic resonance image slice from a volume that matches the inter-operative ultrasound image has further motivated us to investigate on shape-based and image-based similarity measures and propose for slice-to-slice correspondence based on joint-maximization of the similarity measures.

25

Bonazza, Pierre. "Système de sécurité biométrique multimodal par imagerie, dédié au contrôle d’accès". Thesis, Bourgogne Franche-Comté, 2019. http://www.theses.fr/2019UBFCK017/document.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Les travaux de recherche de cette thèse consistent à mettre en place des solutions performantes et légères permettant de répondre aux problèmes de sécurisation de produits sensibles. Motivé par une collaboration avec différents acteurs au sein du projet Nuc-Track,le développement d'un système de sécurité biométrique, possiblement multimodal, mènera à une étude sur différentes caractéristiques biométriques telles que le visage, les empreintes digitales et le réseau vasculaire. Cette thèse sera axée sur une adéquation algorithme et architecture, dans le but de minimiser la taille de stockage des modèles d'apprentissages tout en garantissant des performances optimales. Cela permettra leur stockage sur un support personnel, respectant ainsi les normes de vie privée
Research of this thesis consists in setting up efficient and light solutions to answer the problems of securing sensitive products. Motivated by a collaboration with various stakeholders within the Nuc-Track project, the development of a biometric security system, possibly multimodal, will lead to a study on various biometric features such as the face, fingerprints and the vascular network. This thesis will focus on an algorithm and architecture matching, with the aim of minimizing the storage size of the learning models while guaranteeing optimal performances. This will allow it to be stored on a personal support, thus respecting privacy standards

26

Toulouse, Tom. "Estimation par stéréovision multimodale de caractéristiques géométriques d’un feu de végétation en propagation". Thesis, Corte, 2015. http://www.theses.fr/2015CORT0009/document.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Les travaux menés dans cette thèse concernent le développement d'un dispositif de vision permettant l'estimation de caractéristiques géométriques d'un feu de végétation en propagation. Ce dispositif est composé de plusieurs systèmes de stéréovision multimodaux générant des paires d'images stéréoscopiques à partir desquelles des points tridimensionnels sont calculés et les caractéristiques géométriques de feu tels que sa position, vitesse, hauteur, profondeur, inclinaison, surface et volume sont estimées. La première contribution importante de cette thèse est la détection de pixels de feu de végétation. Tous les algorithmes de détection de pixels de feu de la littérature ainsi que ceux développés dans le cadre de cette thèse ont été évalués sur une base de 500 images de feux de végétation acquises dans le domaine du visible et caractérisées en fonction des propriétés du feu dans l'image (couleur, fumée, luminosité). Cinq algorithmes de détection de pixels de feu de végétation basés sur la fusion de données issues d'images acquises dans le domaine du visible et du proche-infrarouge ont également été développés et évalués sur une autre base de données composée de 100 images multimodales caractérisées. La deuxième contribution importante de cette thèse concerne l'utilisation de méthodes de fusion d'images pour l'optimisation des points appariés entre les images multimodales stéréoscopiques.La troisième contribution importante de cette thèse est l'estimation des caractéristiques géométriques de feu à partir de points tridimensionnels obtenus depuis plusieurs paires d'images stéréoscopiques et recalés à l'aide de relevés GPS et d'inclinaison de tous les dispositifs de vision.Le dispositif d'estimation de caractéristiques géométriques à partir de systèmes de stéréovision a été évalué sur des objets rigides de dimensions connues et a permis d'obtenir les informations souhaitées avec une bonne précision. Les résultats des données obtenues pour des feux de végétation en propagation sont aussi présentés
This thesis presents the geometrical characteristics measurement of spreading vegetation fires with multimodal stereovision systems. Image processing and 3D registration are used in order to obtain a three-dimensional modeling of the fire at each instant of image acquisition and then to compute fire front characteristics like its position, its rate of spread, its height, its width, its inclination, its surface and its volume. The first important contribution of this thesis is the fire pixel detection. A benchmark of fire pixel detection algorithms and of those that are developed in this thesis have been on a database of 500 vegetation fire images of the visible spectra which have been characterized according to the fire properties in the image (color, smoke, luminosity). Five fire pixel detection algorithms based on fusion of data from visible and near-infrared spectra images have also been developed and tested on another database of 100 multimodal images. The second important contribution of this thesis is about the use of images fusion for the optimization of the matching point’s number between the multimodal stereo images.The second important contribution of this thesis is the registration method of 3D fire points obtained with stereovision systems. It uses information collected from a housing containing a GPS and an IMU card which is positioned on each stereovision systems. With this registration, a method have been developed to extract the geometrical characteristics when the fire is spreading.The geometrical characteristics estimation device have been evaluated on a car of known dimensions and the results obtained confirm the good accuracy of the device. The results obtained from vegetation fires are also presented

27

Aderghal, Karim. "Classification of multimodal MRI images using Deep Learning : Application to the diagnosis of Alzheimer’s disease". Thesis, Bordeaux, 2021. http://www.theses.fr/2021BORD0045.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Dans cette thèse, nous nous intéressons à la classification automatique des images IRM cérébrales pour le diagnostic de la maladie d’Alzheimer (MA). Nous cherchons à construire des modèles intelligents qui fournissent au clinicien des décisions sur l’état de la maladie d’un patient à partir de caractéristiques visuelles extraites d’images IRM. L’objectif consiste à classifier les patients (sujets) en trois catégories principales : sujets sains (NC), sujets atteints de troubles cognitifs légers (MCI), et sujets atteints de la maladie d’Alzheimer (AD). Nous utilisons des méthodes d’apprentissage profond (Deep learning), plus précisément les réseaux neuronaux convolutifs (CNN) basés sur des biomarqueurs visuels à partir d’images IRM multimodales (IRM structurelle et l’IRM de tenseur de diffusion - DTI), pour détecter les changements structurels dans le cerveau, en particulier dans la région hippocampique du cortex limbique. Nous proposons une approche appelée "2-D+e" appliquée sur notre ROI (Region-of-Interest): hippocampe. Cette approche permet d’extraire des coupes 2D à partir de trois plans (sagittale, coronale et axiale) de notre région en préservant les dépendances spatiales entre les coupes adjacentes selon chaque dimension. Nous présentons une étude complète de différentes méthodes artificielles d’augmentation de données, ainsi que différentes approches d’équilibrage de données pour analyser l’impact de ces conditions sur nos modèles pendant la phase d’entraînement. Ensuite, nous proposons nos méthodes pour combiner des informations provenant de différentes sources (projections/modalités) avec notamment deux stratégies de fusion (fusion précoce et fusion tardive). Enfin, nous présentons des schémas d’apprentissage par transfert en introduisant trois cadres : (i) un schéma inter-modale (IRM structurelle et DTI), (ii) un schéma inter-domaine qui implique des données externes (MNIST), (iii) et un schéma hybride avec ces deux méthodes (i) et (ii). Les méthodes que nous proposons conviennent à l’utilisation des réseaux (CNN) peu profonds pour les images IRM multimodales. Elles donnent des résultats encourageants même si le modèle est entraîné sur de petits ensembles de données, ce qui est souvent le cas en analyse d’images médicales
In this thesis, we are interested in the automatic classification of brain MRI images to diagnose Alzheimer’s disease (AD). We aim to build intelligent models that provide decisions about a patient’s disease state to the clinician based on visual features extracted from MRI images. The goal is to classify patients (subjects) into three main categories: healthy subjects (NC), subjects with mild cognitive impairment (MCI), and subjects with Alzheimer’s disease (AD). We use deep learning methods, specifically convolutional neural networks (CNN) based on visual biomarkers from multimodal MRI images (structural MRI and DTI), to detect structural changes in the brain hippocampal region of the limbic cortex. We propose an approach called "2-D+e" applied to our ROI (Region-of-Interest): the hippocampus. This approach allows extracting 2D slices from three planes (sagittal, coronal, and axial) of our region by preserving the spatial dependencies between adjacent slices according to each dimension. We present a complete study of different artificial data augmentation methods and different data balancing approaches to analyze the impact of these conditions on our models during the training phase. We propose our methods for combining information from different sources (projections/modalities), including two fusion strategies (early fusion and late fusion). Finally, we present transfer learning schemes by introducing three frameworks: (i) a cross-modal scheme (using sMRI and DTI), (ii) a cross-domain scheme that involves external data (MNIST), and (iii) a hybrid scheme with these two methods (i) and (ii). Our proposed methods are suitable for using shallow CNNs for multimodal MRI images. They give encouraging results even if the model is trained on small datasets, which is often the case in medical image analysis

28

Fayech, Besma. "Régulation des réseaux de transport multimodal : systèmes multi-agents et algorithmes évolutionnistes". Lille 1, 2003. https://pepite-depot.univ-lille.fr/LIBRE/Th_Num/2003/50376-2003-323.pdf.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Le but des travaux présentés dans cette thèse est de proposer un système d'aide à la décision pour la régulation du trafic au sein d'un réseau de transport collectif multimodal. Nous définissons la régulation comme la réaffectation, à travers différentes décisions, des horaires et des itinéraires aux différents véhicules du réseau en cas de perturbation. Afin de mieux représenter les aspects statiques et dynamiques du réseau, nous proposons une modélisation hybride du système de transport (agents et graphes). Le Système Multi-Agent d'Aide à la Décision (SMAAD) proposé réalise les deux phases principales du processus de régulation: le diagnostic des incidents et la prise de décision. Le SMAAD inclut des agents ZONEREG qui génèrent des décisions via une approche évolutionniste de régulation qui peut mener à une reconfiguration partielle du réseau. Cette approche tient compte de la flexibilité courante. Elle intègre ainsi un algorithme de recherche de chemins hamiltoniens.

29

De, goussencourt Timothée. "Système multimodal de prévisualisation “on set” pour le cinéma". Thesis, Université Grenoble Alpes (ComUE), 2016. http://www.theses.fr/2016GREAT106/document.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

La previz on-set est une étape de prévisualisation qui a lieu directement pendant la phase de tournage d’un film à effets spéciaux. Cette proposition de prévisualisation consiste à montrer au réalisateur une vue assemblée du plan final en temps réel. Le travail présenté dans cette thèse s’intéresse à une étape spécifique de la prévisualisation : le compositing. Cette étape consiste à mélanger plusieurs sources d’images pour composer un plan unique et cohérent. Dans notre cas, il s’agit de mélanger une image de synthèse avec une image issue de la caméra présente sur le plateau de tournage. Les effets spéciaux numériques sont ainsi ajoutés à la prise de vue réelle. L’objectif de cette thèse consiste donc à proposer un système permettant l’ajustement automatique du mélange entre les deux images. La méthode proposée nécessite la mesure de la géométrie de la scène filmée. Pour cette raison, un capteur de profondeur est ajouté à la caméra de tournage. Les données sont relayées à l’ordinateur qui exécute un algorithme permettant de fusionner les données du capteur de profondeur et de la caméra de tournage. Par le biais d’un démonstrateur matériel, nous avons formalisé une solution intégrée dans un moteur de jeux vidéo. Les expérimentations menées montrent dans un premier temps des résultats encourageants pour le compositing en temps réel. Nous avons observé une amélioration des résultats suite à l’introduction de la méthode de segmentation conjointe. La principale force de ce travail réside dans la mise en place du démonstrateur qui nous a permis d’obtenir des algorithmes efficaces dans le domaine de la previz on-set
Previz on-set is a preview step that takes place directly during the shootingphase of a film with special effects. The aim of previz on-set is to show to the film director anassembled view of the final plan in realtime. The work presented in this thesis focuses on aspecific step of the previz : the compositing. This step consists in mixing multiple images tocompose a single and coherent one. In our case, it is to mix computer graphics with an imagefrom the main camera. The objective of this thesis is to propose a system for automaticadjustment of the compositing. The method requires the measurement of the geometry ofthe scene filmed. For this reason, a depth sensor is added to the main camera. The data issent to the computer that executes an algorithm to merge data from depth sensor and themain camera. Through a hardware demonstrator, we formalized an integrated solution in avideo game engine. The experiments gives encouraging results for compositing in real time.Improved results were observed with the introduction of a joint segmentation method usingdepth and color information. The main strength of this work lies in the development of ademonstrator that allowed us to obtain effective algorithms in the field of previz on-set

30

Alameda-Pineda, Xavier. "Egocentric Audio-Visual Scene Analysis : a machine learning and signal processing approach". Thesis, Grenoble, 2013. http://www.theses.fr/2013GRENM024/document.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Depuis les vingt dernières années, l'industrie a développé plusieurs produits commerciaux dotés de capacités auditives et visuelles. La grand majorité de ces produits est composée d'un caméscope et d'un microphone embarqué (téléphones portables, tablettes, etc). D'autres, comme la Kinect, sont équipés de capteurs de profondeur et/ou de petits réseaux de microphones. On trouve également des téléphones portables dotés d'un système de vision stéréo. En même temps, plusieurs systèmes orientés recherche sont apparus (par exemple, le robot humanoïde NAO). Du fait que ces systèmes sont compacts, leurs capteurs sont positionnés près les uns des autres. En conséquence, ils ne peuvent pas capturer la scène complète, mais qu'un point de vue très particulier de l'interaction sociale en cours. On appelle cela "Analyse Égocentrique de Scènes Audio-Visuelles''.Cette thèse contribue à cette thématique de plusieurs façons. D'abord, en fournissant une base de données publique qui cible des applications comme la reconnaissance d'actions et de gestes, localisation et suivi d'interlocuteurs, analyse du tour de parole, localisation de sources auditives, etc. Cette base a été utilisé en dedans et en dehors de cette thèse. Nous avons aussi travaillé le problème de la détection d'événements audio-visuels. Nous avons montré comme la confiance en une des modalités (issue de la vision en l'occurrence), peut être modélisée pour biaiser la méthode, en donnant lieu à un algorithme d'espérance-maximisation visuellement supervisé. Ensuite, nous avons modifié l'approche pour cibler la détection audio-visuelle d'interlocuteurs en utilisant le robot humanoïde NAO. En parallèle aux travaux en détection audio-visuelle d'interlocuteurs, nous avons développé une nouvelle approche pour la reconnaissance audio-visuelle de commandes. Nous avons évalué la qualité de plusieurs indices et classeurs, et confirmé que l'utilisation des données auditives et visuelles favorise la reconnaissance, en comparaison aux méthodes qui n'utilisent que l'audio ou que la vidéo. Plus tard, nous avons cherché la meilleure méthode pour des ensembles d'entraînement minuscules (5-10 observations par catégorie). Il s'agit d'un problème intéressant, car les systèmes réels ont besoin de s'adapter très rapidement et d'apprendre de nouvelles commandes. Ces systèmes doivent être opérationnels avec très peu d'échantillons pour l'usage publique. Pour finir, nous avons contribué au champ de la localisation de sources sonores, dans le cas particulier des réseaux coplanaires de microphones. C'est une problématique importante, car la géométrie du réseau est arbitraire et inconnue. En conséquence, cela ouvre la voie pour travailler avec des réseaux de microphones dynamiques, qui peuvent adapter leur géométrie pour mieux répondre à certaines tâches. De plus, la conception des produits commerciaux peut être contrainte de façon que les réseaux linéaires ou circulaires ne sont pas bien adaptés
Along the past two decades, the industry has developed several commercial products with audio-visual sensing capabilities. Most of them consists on a videocamera with an embedded microphone (mobile phones, tablets, etc). Other, such as Kinect, include depth sensors and/or small microphone arrays. Also, there are some mobile phones equipped with a stereo camera pair. At the same time, many research-oriented systems became available (e.g., humanoid robots such as NAO). Since all these systems are small in volume, their sensors are close to each other. Therefore, they are not able to capture de global scene, but one point of view of the ongoing social interplay. We refer to this as "Egocentric Audio-Visual Scene Analysis''.This thesis contributes to this field in several aspects. Firstly, by providing a publicly available data set targeting applications such as action/gesture recognition, speaker localization, tracking and diarisation, sound source localization, dialogue modelling, etc. This work has been used later on inside and outside the thesis. We also investigated the problem of AV event detection. We showed how the trust on one of the modalities (visual to be precise) can be modeled and used to bias the method, leading to a visually-supervised EM algorithm (ViSEM). Afterwards we modified the approach to target audio-visual speaker detection yielding to an on-line method working in the humanoid robot NAO. In parallel to the work on audio-visual speaker detection, we developed a new approach for audio-visual command recognition. We explored different features and classifiers and confirmed that the use of audio-visual data increases the performance when compared to auditory-only and to video-only classifiers. Later, we sought for the best method using tiny training sets (5-10 samples per class). This is interesting because real systems need to adapt and learn new commands from the user. Such systems need to be operational with a few examples for the general public usage. Finally, we contributed to the field of sound source localization, in the particular case of non-coplanar microphone arrays. This is interesting because the geometry of the microphone can be any. Consequently, this opens the door to dynamic microphone arrays that would adapt their geometry to fit some particular tasks. Also, because the design of commercial systems may be subject to certain constraints for which circular or linear arrays are not suited

31

Guislain, Maximilien. "Traitement joint de nuage de points et d'images pour l'analyse et la visualisation des formes 3D". Thesis, Lyon, 2017. http://www.theses.fr/2017LYSE1219/document.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Au cours de la dernière décennie, les technologies permettant la numérisation d'espaces urbains ont connu un développement rapide. Des campagnes d'acquisition de données couvrant des villes entières ont été menées en utilisant des scanners LiDAR (Light Detection And Ranging) installés sur des véhicules mobiles. Les résultats de ces campagnes d'acquisition laser, représentants les bâtiments numérisés, sont des nuages de millions de points pouvant également contenir un ensemble de photographies. On s'intéresse ici à l'amélioration du nuage de points à l'aide des données présentes dans ces photographies. Cette thèse apporte plusieurs contributions notables à cette amélioration. La position et l'orientation des images acquises sont généralement connues à l'aide de dispositifs embarqués avec le scanner LiDAR, même si ces informations de positionnement sont parfois imprécises. Pour obtenir un recalage précis d'une image sur un nuage de points, nous proposons un algorithme en deux étapes, faisant appel à l'information mutuelle normalisée et aux histogrammes de gradients orientés. Cette méthode permet d'obtenir une pose précise même lorsque les estimations initiales sont très éloignées de la position et de l'orientation réelles. Une fois ces images recalées, il est possible de les utiliser pour inférer la couleur de chaque point du nuage en prenant en compte la variabilité des points de vue. Pour cela, nous nous appuyons sur la minimisation d'une énergie prenant en compte les différentes couleurs associables à un point et les couleurs présentes dans le voisinage spatial du point. Bien entendu, les différences d'illumination lors de l'acquisition des données peuvent altérer la couleur à attribuer à un point. Notamment, cette couleur peut dépendre de la présence d'ombres portées amenées à changer avec la position du soleil. Il est donc nécessaire de détecter et de corriger ces dernières. Nous proposons une nouvelle méthode qui s'appuie sur l'analyse conjointe des variations de la réflectance mesurée par le LiDAR et de la colorimétrie des points du nuage. En détectant suffisamment d'interfaces ombre/lumière nous pouvons caractériser la luminosité de la scène et la corriger pour obtenir des scènes sans ombre portée. Le dernier problème abordé par cette thèse est celui de la densification du nuage de points. En effet la densité locale du nuage de points est variable et parfois insuffisante dans certaines zones. Nous proposons une approche applicable directement par la mise en oeuvre d'un filtre bilatéral joint permettant de densifier le nuage de points en utilisant les données des images
Recent years saw a rapid development of city digitization technologies. Acquisition campaigns covering entire cities are now performed using LiDAR (Light Detection And Ranging) scanners embedded aboard mobile vehicles. These acquisition campaigns yield point clouds, composed of millions of points, representing the buildings and the streets, and may also contain a set of images of the scene. The subject developed here is the improvement of the point cloud using the information contained in the camera images. This thesis introduces several contributions to this joint improvement. The position and orientation of acquired images are usually estimated using devices embedded with the LiDAR scanner, even if this information is inaccurate. To obtain the precise registration of an image on a point cloud, we propose a two-step algorithm which uses both Mutual Information and Histograms of Oriented Gradients. The proposed method yields an accurate camera pose, even when the initial estimations are far from the real position and orientation. Once the images have been correctly registered, it is possible to use them to color each point of the cloud while using the variability of the point of view. This is done by minimizing an energy considering the different colors associated with a point and the potential colors of its neighbors. Illumination changes can also change the color assigned to a point. Notably, this color can be affected by cast shadows. These cast shadows are changing with the sun position, it is therefore necessary to detect and correct them. We propose a new method that analyzes the joint variation of the reflectance value obtained by the LiDAR and the color of the points. By detecting enough interfaces between shadow and light, we can characterize the luminance of the scene and to remove the cast shadows. The last point developed in this thesis is the densification of a point cloud. Indeed, the local density of a point cloud varies and is sometimes insufficient in certain areas. We propose a directly applicable approach to increase the density of a point cloud using multiple images

32

Garcia, Geoffrey. "Une approche logicielle du traitement de la dyslexie : étude de modèles et applications". Thesis, Clermont-Ferrand 2, 2015. http://www.theses.fr/2015CLF22634/document.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Les troubles neuropsychologiques sont très répandus et posent de réels problèmes de santé publique. En particulier, dans notre société moderne où la communication écrite est omniprésente, la dyslexie peut s’avérer excessivement handicapante. On remarque néanmoins que le diagnostic et la remédiation de cette pathologie restent délicats et manquent d’uniformisation. Ceci semble malheureusement inhérent à la caractérisation clinique par exclusion de la dyslexie, à la multitude de praticiens différents impliqués dans une telle prise en charge ainsi qu’au manque d’objectivité de certaines méthodes existantes. A ce titre, nous avons décidé d’investiguer les possibilités offertes par l’informatique actuelle pour surmonter ces barrières. Effectivement, nous avons supposé que la démocratisation des systèmes informatiques et leur puissance de calcul pourraient en faire un outil de choix pour pallier les difficultés rencontrées lors de la prise en charge de la dyslexie. Cette recherche nous a ainsi mené à étudier les techniques, aussi bien logicielles que matérielles, pouvant conduire au développement d’un système bon marché et évolutif qui serait capable d’assister un changement bénéfique et progressif des pratiques qui entourent cette pathologie. Avec ce projet, nous nous plaçons définitivement dans un courant innovant au service de la qualité des soins et des aides apportées aux personnes souffrant d’un handicap. Notre travail a ainsi consisté à identifier différents axes d’amélioration que l’utilisation de l’outil informatique rend possible. Chacun de ces axes a alors pu faire l’objet de recherches exhaustives, de modélisations et de développements de prototypes. Nous avons également réfléchi à la méthodologie à mettre en œuvre pour concevoir un tel système dans sa globalité. En particulier, nos réflexions et ces différents accomplissements nous ont permis de définir un framework logiciel propice à l’implémentation d’une plate-forme logicielle que nous avons appelée la PAMMA. Cette plate-forme devrait théoriquement pouvoir disposer de tous les outils permettant le développement souple et efficace d’applications médicales intégrant des processus métiers. Il est ainsi attendu de ce système qu’il permette le développement d’applications, pour la prise en charges des patients dyslexiques, conduisant à un diagnostic plus rapide et plus précis ainsi qu’à une remédiation plus adaptée et plus efficace. De notre effort d’innovation ressortent des perspectives encourageantes. Cependant, ce type d’initiative ne peut se concrétiser qu’autour de collaborations pluridisciplinaires disposant de nombreux moyens fonctionnels, techniques et financiers. La constitution d’un tel consortium semble donc être la prochaine étape nécessaire à l’obtention des financements pour réaliser un premier prototype fonctionnel de la PAMMA, ainsi que de premières applications. Des études cliniques pourront être alors menées pour prouver indubitablement l’efficacité d’une telle approche dans le cadre de la prise en charge de la dyslexie, ainsi qu’éventuellement d’autres troubles neuropsychologiques
Neuropsychological disorders are widespread and generate real public health problems. In particular in our modern society, where written communication is ubiquitous, dyslexia can be extremely disabling. Nevertheless we can note that the diagnosis and remediation of this pathology are fastidious and lack of standardization. Unfortunately it seems inherent to the clinical characterization of dyslexia by exclusion, to the multitude of different practitioners involved in such treatment and to the lack of objectivity of some existing methods. In this respect, we decided to investigate the possibilities offered by modern computing to overcome these barriers. Indeed we have assumed that the democratization of computer systems and their computing power could make of them a perfect tool to alleviate the difficulties encountered in the treatment of dyslexia. This research has led us to study the techniques software as well as hardware, which can conduct to the development of an inexpensive and scalable system able to attend a beneficial and progressive changing of practices in this pathology field. With this project we put ourselves definitely in an innovative stream serving quality of care and aid provided to people with disabilities. Our work has been identifying different improvement areas that the use of computers enables. Then each of these areas could then be the subject of extensive research, modeling and prototype developments. We also considered the methodology for designing this kind of system as a whole. In particular our thoughts and these accomplishments have allowed us to define a software framework suitable for implementing a software platform that we called the PAMMA. This platform should theoretically have access to all the tools required for the flexible and efficient development of medical applications integrating business processes. In this way it is expected that this system allows the development of applications for caring dyslexic patients thus leading to a faster and more accurate diagnosis and a more appropriate and effective remediation. Of our innovation efforts emerge encouraging perspectives. However such initiatives can only be achieved within multidisciplinary collaborations with many functional, technical and financial means. Creating such a consortium seems to be the next required step to get a funding necessary for realizing a first functional prototype of the PAMMA, as well as its first applications. Some clinical studies may be conducted to prove undoubtedly the effectiveness of such an approach for treating dyslexia and eventually other neuropsychological disorders

33

Cantisani, Giorgia. "Neuro-steered music source separation". Electronic Thesis or Diss., Institut polytechnique de Paris, 2021. http://www.theses.fr/2021IPPAT038.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Dans cette thèse, nous abordons le défi de l'utilisation d'interfaces cerveau-machine (ICM) sur l'application spécifique de la séparation de sources musicales qui vise à isoler les instruments individuels qui sont mélangés dans un enregistrement de musique. Ce problème a été étudié pendant des décennies, mais sans jamais considérer les ICM comme un moyen possible de guider et d'informer les systèmes de séparation. Plus précisément, nous avons étudié comment l'activité neuronale caractérisée par des signaux électroencéphalographiques (EEG) reflète des informations sur la source à laquelle on porte son attention et comment nous pouvons l'utiliser pour informer un système de séparation de sources.Tout d'abord, nous avons étudié le problème du décodage par l'EEG de l'attention auditive d'un instrument spécifique dans une pièce musicale polyphonique, en montrant que l'EEG suit les caractéristiques musicales pertinentes qui sont fortement corrélées avec la représentation temps-fréquence de la source à laquelle on porte l'attention et seulement faiblement corrélées avec les autres. Ensuite, nous avons exploité ce "contraste" pour informer un modèle de séparation de sources non supervisé basé sur une nouvelle variante de factorisation en matrices positives (NMF), appelée contrastive-NMF (C-NMF) et séparer automatiquement la source à laquelle on porte l'attention.La NMF non supervisée est une approche efficace dans de telles applications ne disposant pas ou peu de données d'apprentissage, comme c'est le cas dans des scénarios nécessitant des enregistrements EEG. En effet, les jeux de données EEG liés à la musique disponibles sont coûteux et longs à acquérir, ce qui exclut la possibilité d'aborder le problème par des approches d'apprentissage profond entièrement supervisées. Dans la dernière partie de la thèse, nous avons exploré des stratégies d'apprentissage alternatives. Plus précisément, nous avons étudié la possibilité d'adapter un modèle de séparation de sources de l'état de l'art à un mélange spécifique en utilisant les activations temporelles de sources dérivées de l'activité neuronale de l'utilisateur au moment du test. Cette approche peut être considérée comme étant " à adaptation unitaire" (one-shot), car l'adaptation agit uniquement sur une instance de chanson.Nous avons évalué les approches proposées sur les jeu de données MAD-EEG qui a été spécifiquement assemblé pour cette étude, obtenant des résultats encourageants, en particulier dans les cas difficiles où les modèles non informés sont mis à mal
In this PhD thesis, we address the challenge of integrating Brain-Computer Interfaces (BCI) and music technologies on the specific application of music source separation, which is the task of isolating individual sound sources that are mixed in the audio recording of a musical piece. This problem has been investigated for decades, but never considering BCI as a possible way to guide and inform separation systems. Specifically, we explored how the neural activity characterized by electroencephalographic signals (EEG) reflects information about the attended instrument and how we can use it to inform a source separation system.First, we studied the problem of EEG-based auditory attention decoding of a target instrument in polyphonic music, showing that the EEG tracks musically relevant features which are highly correlated with the time-frequency representation of the attended source and only weakly correlated with the unattended one. Second, we leveraged this ``contrast'' to inform an unsupervised source separation model based on a novel non-negative matrix factorisation (NMF) variant, named contrastive-NMF (C-NMF) and automatically separate the attended source.Unsupervised NMF represents a powerful approach in such applications with no or limited amounts of training data as when neural recording is involved. Indeed, the available music-related EEG datasets are still costly and time-consuming to acquire, precluding the possibility of tackling the problem with fully supervised deep learning approaches. Thus, in the last part of the thesis, we explored alternative learning strategies to alleviate this problem. Specifically, we propose to adapt a state-of-the-art music source separation model to a specific mixture using the time activations of the sources derived from the user's neural activity. This paradigm can be referred to as one-shot adaptation, as it acts on the target song instance only.We conducted an extensive evaluation of both the proposed system on the MAD-EEG dataset which was specifically assembled for this study obtaining encouraging results, especially in difficult cases where non-informed models struggle

34

Vukotic, Verdran. "Deep Neural Architectures for Automatic Representation Learning from Multimedia Multimodal Data". Thesis, Rennes, INSA, 2017. http://www.theses.fr/2017ISAR0015/document.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

La thèse porte sur le développement d'architectures neuronales profondes permettant d'analyser des contenus textuels ou visuels, ou la combinaison des deux. De manière générale, le travail tire parti de la capacité des réseaux de neurones à apprendre des représentations abstraites. Les principales contributions de la thèse sont les suivantes: 1) Réseaux récurrents pour la compréhension de la parole: différentes architectures de réseaux sont comparées pour cette tâche sur leurs facultés à modéliser les observations ainsi que les dépendances sur les étiquettes à prédire. 2) Prédiction d’image et de mouvement : nous proposons une architecture permettant d'apprendre une représentation d'une image représentant une action humaine afin de prédire l'évolution du mouvement dans une vidéo ; l'originalité du modèle proposé réside dans sa capacité à prédire des images à une distance arbitraire dans une vidéo. 3) Encodeurs bidirectionnels multimodaux : le résultat majeur de la thèse concerne la proposition d'un réseau bidirectionnel permettant de traduire une modalité en une autre, offrant ainsi la possibilité de représenter conjointement plusieurs modalités. L'approche été étudiée principalement en structuration de collections de vidéos, dons le cadre d'évaluations internationales où l'approche proposée s'est imposée comme l'état de l'art. 4) Réseaux adverses pour la fusion multimodale: la thèse propose d'utiliser les architectures génératives adverses pour apprendre des représentations multimodales en offrant la possibilité de visualiser les représentations dans l'espace des images
In this dissertation, the thesis that deep neural networks are suited for analysis of visual, textual and fused visual and textual content is discussed. This work evaluates the ability of deep neural networks to learn automatic multimodal representations in either unsupervised or supervised manners and brings the following main contributions:1) Recurrent neural networks for spoken language understanding (slot filling): different architectures are compared for this task with the aim of modeling both the input context and output label dependencies.2) Action prediction from single images: we propose an architecture that allow us to predict human actions from a single image. The architecture is evaluated on videos, by utilizing solely one frame as input.3) Bidirectional multimodal encoders: the main contribution of this thesis consists of neural architecture that translates from one modality to the other and conversely and offers and improved multimodal representation space where the initially disjoint representations can translated and fused. This enables for improved multimodal fusion of multiple modalities. The architecture was extensively studied an evaluated in international benchmarks within the task of video hyperlinking where it defined the state of the art today.4) Generative adversarial networks for multimodal fusion: continuing on the topic of multimodal fusion, we evaluate the possibility of using conditional generative adversarial networks to lean multimodal representations in addition to providing multimodal representations, generative adversarial networks permit to visualize the learned model directly in the image domain

35

Benaissa, Ezzeddine. "Plate-forme intelligente pour la chaîne logistique : approche basée sur un système multi-agents et les services web sémantiques, cas du transport multimodal des marchandises". Le Havre, 2013. http://www.theses.fr/2013LEHA0002.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Nous avons proposé dans cette thèses une nouvelle approche pour le développement d'une architecture distribuée à base de Système Multi-Agents (SMA) couplée à des Services Web Sémantiques (SWS) et ce afin d'aider à le prise de décision collaborative dans le contexte de l'entreprise étendue. Afin de valider notre approche, la châine de transport multimodal des marchandises a été prise comme cas d'application. Le réusltat des travaux de recherches réalisés se présente sous la forme d'une plateforme intelligente baptisée i-SEEC pour Intelligent System for Extended Enterprise Cooperation
We have proposed in this thesis a new approach for the development of a distributed based Multi-Agent System (MAS) coupled with Semantic Web Services (SWS) architecture in order to assist in the collaborative decision-making in the context of extended enterprise. To validate our appoach, the multimodal transport chain of goods was taken as a case application. The result of the research work is done in the form of called i-SEET for Intelligent System for Extended Enterprise intelligent platform

36

Maman, Lucien. "Automated analysis of cohesion in small groups interactions". Electronic Thesis or Diss., Institut polytechnique de Paris, 2022. http://www.theses.fr/2022IPPAT030.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Au cours de la dernière décennie, un nouveau domaine de recherche multidisciplinaire appelé traitement des signaux sociaux (SSP) a émergé. Il vise à permettre aux machines de détecter, reconnaître et afficher les signaux sociaux humains. L'analyse automatisée des interactions de groupe est l'une des tâches les plus complexes abordée par ce domaine de recherche. Récemment, une attention particulière s'est portée sur l'étude automatisée des états émergents. En effet, ceux-ci jouent un rôle important dans les dynamiques d'un groupe car ils résultent des interactions entre ses membres. Dans cette Thèse, nous abordons l'analyse automatique de la cohésion dans les interactions de petits groupes. La cohésion est un état émergent affectif multidimensionnel qui peut être défini comme un processus dynamique, reflété par la tendance d'un groupe à rester ensemble pour poursuivre des objectifs et/ou des besoins affectifs. Malgré la riche littérature disponible sur la cohésion du point de vue des Sciences Sociales, l'analyse automatique de la cohésion en est encore à ses débuts. En s'inspirant de connaissances tirées des Sciences Sociales, cette thèse vise à développer des modèles informatiques de cohésion suivant quatre axes de recherche, en s'appuyant sur des techniques d'apprentissage automatique et d'apprentissage profond. Ces modèles doivent en effet tenir compte de la nature temporelle de la cohésion, de sa multidimensionnalité, de la façon de modéliser la cohésion du point de vue des individus et du groupe, d'intégrer les relations entre ses dimensions et leur évolution dans le temps, ainsi que de tenir compte des relations entre la cohésion et d'autres processus de groupe. De plus, face à un manque de données disponibles publiquement, cette thèse a contribué à la collecte d'une base de données multimodales spécifiquement conçue pour étudier la cohésion, et pour contrôler explicitement ses variations dans le temps. Une telle base de données permet, entre autres, de développer des modèles informatiques intégrant la cohésion perçue par les membres du groupe et/ou par des points de vue externes. Nos résultats montrent la pertinence de s'inspirer des théories tirées des Sciences Sociales pour développer de nouveaux modèles computationnels de cohésion et confirment les avantages d'explorer chacun des quatre axes de recherche
Over the last decade, a new multidisciplinary research domain named Social Signal Processing (SSP) emerged. It is aimed at enabling machines to sense, recognize, and display human social signals. One of the challenging tasks addressed by SSP is the automated group interaction analysis. Recently, a particular emphasis is given to the automated study of emergent states as they play an important role in group dynamics. These are social processes that develop throughout group members' interactions.In this Thesis, we address the automated analysis of cohesion in small groups interactions. Cohesion is a multidimensional affective emergent state that can be defined as a dynamic process reflected by the tendency of a group to stick together to pursue goals and/or affective needs. Despite the rich literature available on cohesion from a Social Sciences perspective, its automated analysis is still in its infancy. Grounding on Social Sciences' insights, this Thesis aims to develop computational models of cohesion following four axes research axes, leveraging Machine Learning and Deep Learning techniques. Computational models of cohesion, indeed, should account for the temporal nature of cohesion, the multidimensionality of this group process, take into account how to model cohesion from both individuals and group perspectives, integrate the relationships between its dimensions and their development over time, and take heed of the relationships between cohesion and other group processes.In addition, facing a lack of publicly available data, this Thesis contributed to the collection of a multimodal dataset specifically designed for studying group cohesion and for explicitly controlling its variations over time. Such a dataset enables, among other perspectives, further development of computational models integrating the perceived cohesion from group members and/or external points of view. Our results show the relevance of leveraging Social Sciences' insights to develop new computational models of cohesion and confirm the benefits of exploring each of the four research axes

37

Malik, Muhammad Usman. "Learning multimodal interaction models in mixed societies A novel focus encoding scheme for addressee detection in multiparty interaction using machine learning algorithms". Thesis, Normandie, 2020. http://www.theses.fr/2020NORMIR18.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Les travaux de recherche proposés se situe au carrefour de deux domaines de recherche, l'interaction humain-agent et l'apprentissage automatique. L’interaction humain-agent fait référence aux techniques et concepts impliqués dans le développement des agents intelligents, tels que les robots et les agents virtuels, capables d'interagir avec les humains pour atteindre un objectif commun. L’apprentissage automatique, d'autre part, exploite des algorithmes statistiques pour apprendre des modèles de donnée. Les interactions humaines impliquent plusieurs modalités, qui peuvent être verbales comme la parole et le texte, ainsi que les comportements non-verbaux, c'est-à-dire les expressions faciales, le regard, les gestes de la tête et des mains, etc. Afin d'imiter l'interaction humain-humain en temps réel en interaction humain-agent, plusieurs modalités d'interaction peuvent être exploitées. Avec la disponibilité de corpus d'interaction multimodales humain-humain et humain-agent, les techniques d'apprentissage automatique peuvent alors être utilisées pour développer des modèles interdépendants participant à l'interaction humain-agent. À cet égard, nos travaux de recherche proposent des modèles originaux pour la détection de destinataires d'énoncés, le changement de tour de parole et la prédiction du prochain locuteur, et enfin la génération de comportement d'attention visuelle en interaction multipartie. Notre modèle de détection de destinataire prédit le destinataire d'un énoncé lors d'interactions impliquant plus de deux participant. Le problème de détection de destinataires a été traité comme un problème d'apprentissage automatique multiclasse supervisé. Plusieurs algorithmes d'apprentissage ont été entrainés pour développer des modèles de détection de destinataires. Les résultats obtenus montrent que ces propositions sont plus performants qu'un algorithme de référence. Le second modèle que nous proposons concerne le changement de tour de parole et la prédiction du prochain locuteur dans une interaction multipartie. La prédiction du changement de tour est modélisée comme un problème de classification binaire alors que le modèle de prédiction du prochain locuteur est considéré comme un problème de classification multiclasse. Des algorithmes d'apprentissage automatique sont entraînés pour résoudre ces deux problèmes interdépendants. Les résultats montrent que les modèles proposés sont plus performants que les modèles de référence. Enfin, le troisième modèle proposé concerne le problème de génération du comportement d'attention visuelle (CAV) pour les locuteurs et les auditeurs dans une interaction multipartie. Ce modèle est divisé en plusieurs sous-modèles qui sont entraînés par l'apprentissage machine ainsi que par des techniques heuristiques. Les résultats attestent que les systèmes que nous proposons sont plus performants que les modèles de référence développés par des approches aléatoires et à base de règles. Le modèle de génération de comportement CAV proposé est mis en œuvre sous la forme d’une série de quatre modules permettant de créer différents scénarios d’interaction entre plusieurs agents virtuels. Afin de l’évaluer, des vidéos enregistrées pour les modèles de génération de CAV pour les orateurs et les auditeurs, sont présentées à des évaluateurs humains qui évaluent les comportements de référence, le comportement réel issu du corpus et les modèles proposés de CAV sur plusieurs critères de naturalité du comportement. Les résultats montrent que le comportement de CAV généré via le modèle est perçu comme plus naturel que les bases de référence et aussi naturel que le comportement réel
Human -Agent Interaction and Machine learning are two different research domains. Human-agent interaction refers to techniques and concepts involved in developing smart agents, such as robots or virtual agents, capable of seamless interaction with humans, to achieve a common goal. Machine learning, on the other hand, exploits statistical algorithms to learn data patterns. The proposed research work lies at the crossroad of these two research areas. Human interactions involve multiple modalities, which can be verbal such as speech and text, as well as non-verbal i.e. facial expressions, gaze, head and hand gestures, etc. To mimic real-time human-human interaction within human-agent interaction,multiple interaction modalities can be exploited. With the availability of multimodal human-human and human-agent interaction corpora, machine learning techniques can be used to develop various interrelated human-agent interaction models. In this regard, our research work proposes original models for addressee detection, turn change and next speaker prediction, and finally visual focus of attention behaviour generation, in multiparty interaction. Our addressee detection model predicts the addressee of an utterance during interaction involving more than two participants. The addressee detection problem has been tackled as a supervised multiclass machine learning problem. Various machine learning algorithms have been trained to develop addressee detection models. The results achieved show that the proposed addressee detection algorithms outperform a baseline. The second model we propose concerns the turn change and next speaker prediction in multiparty interaction. Turn change prediction is modeled as a binary classification problem whereas the next speaker prediction model is considered as a multiclass classification problem. Machine learning algorithms are trained to solve these two interrelated problems. The results depict that the proposed models outperform baselines. Finally, the third proposed model concerns the visual focus of attention (VFOA) behaviour generation problem for both speakers and listeners in multiparty interaction. This model is divided into various sub-models that are trained via machine learning as well as heuristic techniques. The results testify that our proposed systems yield better performance than the baseline models developed via random and rule-based approaches. The proposed VFOA behavior generation model is currently implemented as a series of four modules to create different interaction scenarios between multiple virtual agents. For the purpose of evaluation, recorded videos for VFOA generation models for speakers and listeners, are presented to users who evaluate the baseline, real VFOA behaviour and proposed VFOA models on the various naturalness criteria. The results show that the VFOA behaviour generated via the proposed VFOA model is perceived more natural than the baselines and as equally natural as real VFOA behaviour

38

Bezivin, Pauline. "Effets du sexe sur la maturation cérébrale et impacts sur la régulation émotionnelle à l’adolescence". Thesis, Université Paris-Saclay (ComUE), 2018. http://www.theses.fr/2018SACLS205.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

A l'adolescence, la maturation cérébrale implique des changements anatomiques globaux et régionaux subtils, et estimer la morphologie exacte de certaines structures au cours du développement post-pubertaire est par conséquent difficile. L'effet du dimorphisme sexuel sur la maturation cérébrale n'a été que très peu exploré de façon prospective par l'imagerie par résonance magnétique. Dans ce contexte, ce travail de thèse est consacré à l'étude longitudinale des effets du sexe sur la maturation cérébrale à l'aide de deux méthodes pour contrôler et analyser les variations de positionnement spatial des images acquises à différents intervalles de temps. Dans une première étude utilisant une approche multimodale, notre objectif était d'examiner si le dimorphisme sexuel dans la maturation cérébrale du système limbique pouvait expliquer les différences émotionnelles entre les filles et les garçons pendant l'adolescence. Nous avons adapté pour cela une méthode de traitement longitudinal sur des images anatomiques et de diffusion de 335 adolescents sains entre 14 et 16 ans. Nous avons mis en évidence des différences sexuelles dans la maturation cérébrale du système limbique avec une maturation plus tardive des garçons par rapport aux filles. Ces changements avaient un rôle médiateur sur les différences sexuelles dans la régulation émotionnelle, illustrée par une augmentation des traits de personnalité positifs chez les garçons et une diminution chez les filles. Dans une deuxième étude utilisant une approche originale de recalage, notre objectif était d'estimer et extrapoler des trajectoires de maturation en fonction du dimorphisme sexuel. Nous avons mis en évidence des trajectoires divergentes entre les filles et les garçons entre 14 et 16 ans, illustrant une différenciation des vitesses de maturation croissante à cette période, spécifiquement dans le cortex préfrontal. Ces trajectoires différentielles ont permis d'estimer une avance de maturation de 5 mois chez les filles dans le cortex préfrontal. L'ensemble de ces résultats apporte des informations utiles à une meilleure compréhension des différences de maturation cérébrale entre les filles et les garçons, et de leurs liens avec la dérégulation du système émotionnel et donc la vulnérabilité à la dépression à l'adolescence
In adolescence, brain maturation involves subtle global and regional anatomical changes, and estimating the exact morphology of some structures during post-pubertal development is therefore difficult. Effect of sexual dimorphism on brain maturation has been under-explored prospectively by magnetic resonance imaging. In this context, this work is focused on the longitudinal study of the effects of sex on brain maturation using two methods to control and analyze the spatial positioning variations of images acquired at different time points. In a first study using a multimodal approach, our goal was to examine sexual dimorphism in brain maturation of the limbic system to explain the emotional differences between girls and boys during adolescence. We adapted a method of longitudinal processing on anatomical and diffusion images of 335 healthy adolescents between 14 and 16 years. We highlighted sexual differences in brain maturation of the limbic system with a later maturation of boys compared to girls. These changes mediated sexual differences in emotional regulation, illustrated by an increase in positive personality traits in boys and a decrease in girls. In a second study using an original registration approach, our objective was to estimate and extrapolate maturation trajectories based on sexual dimorphism. We highlighted divergent trajectories between girls and boys between 14 and 16, illustrating a differentiation in maturation rates that increased during this period, specifically in the prefrontal cortex. These differential trajectories made it possible to estimate a maturational advance of 5 months in girls in the prefrontal cortex. All these results provide useful information for a better understanding of the differences in brain maturation between girls and boys, and their links with the emotional system dysregulation and therefore the vulnerability to depression in adolescence

39

Neumann, Markus. "Automatic multimodal real-time tracking for image plane alignment in interventional Magnetic Resonance Imaging". Phd thesis, Université de Strasbourg, 2014. http://tel.archives-ouvertes.fr/tel-01038023.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Interventional magnetic resonance imaging (MRI) aims at performing minimally invasive percutaneous interventions, such as tumor ablations and biopsies, under MRI guidance. During such interventions, the acquired MR image planes are typically aligned to the surgical instrument (needle) axis and to surrounding anatomical structures of interest in order to efficiently monitor the advancement in real-time of the instrument inside the patient's body. Object tracking inside the MRI is expected to facilitate and accelerate MR-guided interventions by allowing to automatically align the image planes to the surgical instrument. In this PhD thesis, an image-based workflow is proposed and refined for automatic image plane alignment. An automatic tracking workflow was developed, performing detection and tracking of a passive marker directly in clinical real-time images. This tracking workflow is designed for fully automated image plane alignment, with minimization of tracking-dedicated time. Its main drawback is its inherent dependence on the slow clinical MRI update rate. First, the addition of motion estimation and prediction with a Kalman filter was investigated and improved the workflow tracking performance. Second, a complementary optical sensor was used for multi-sensor tracking in order to decouple the tracking update rate from the MR image acquisition rate. Performance of the workflow was evaluated with both computer simulations and experiments using an MR compatible testbed. Results show a high robustness of the multi-sensor tracking approach for dynamic image plane alignment, due to the combination of the individual strengths of each sensor.

40

Hett, Kilian. "Multi-scale and multimodal imaging biomarkers for the early detection of Alzheimer’s disease". Thesis, Bordeaux, 2019. http://www.theses.fr/2019BORD0011/document.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

La maladie d’Alzheimer est la première cause de démence chez les personnes âgées. Cette maladie est caractérisée par un déclin irréversible des fonctions cognitives. Les patients atteints par la maladie d’Alzheimer ont de sévères pertes de mémoire et ont de grandes difficultés à apprendre de nouvelles informations ce qui pose de gros problèmes dans leur vie quotidienne. À ce jour, cette maladie est diagnostiquée après que d’importantes altérations des structures du cerveaux apparaissent. De plus, aucune thérapie existe permettant de faire reculer ou de stopper la maladie. Le développement de nouvelles méthodes permettant la détection précoce de cette maladie est ainsi nécessaire. En effet, une détection précoce permettrait une meilleure prise en charge des patients atteints de cette maladie ainsi qu’une accélération de la recherche thérapeutique. Nos travaux de recherche portent sur l’utilisation de l’imagerie médicale, avec notamment l’imagerie par résonance magnétique (IRM) qui a démontrée ces dernières années son potentiel pour améliorer la détection et la prédiction de la maladie d’Alzheimer. Afin d’exploiter pleinement ce type d’imagerie, de nombreuses méthodes ont été proposées récemment. Au cours de nos recherches, nous nous sommes intéressés à un type de méthode en particulier qui est basé sur la correspondance de patchs dans de grandes bibliothèques d’images. Nous avons étudié ces méthodes à diverses échelles anatomiques c’est à dire, cerveaux entier, hippocampe, sous-champs de l’hippocampe) avec diverses modalités d’IRM (par exemple, IRM anatomique et imagerie de diffusion). Nous avons amélioré les performances de détection dans les stades les plus précoces avec l’imagerie par diffusion. Nous avons aussi proposé un nouveau schéma de fusion pour combiner IRM anatomique et imagerie de diffusion. De plus, nous avons montré que la correspondance de patchs était améliorée par l’utilisation de filtres dérivatifs. Enfin, nous avons proposé une méthode par graphe permettant de combiner les informations de similarité inter-sujet avec les informations apportées par la variabilité intra-sujet. Les résultats des expériences menées dans cette thèse ont montrées une amélioration des performances de diagnostique et de prognostique de la maladie d’Alzheimer comparé aux méthodes de l’état de l’art
Alzheimer’s disease (AD) is the most common dementia leading to a neurodegenerative process and causing mental dysfunctions. According to the world health organization, the number of patients having AD will double in 20 years. Neuroimaging studies performed on AD patients revealed that structural brain alterations are advanced when the diagnosis is established. Indeed, the clinical symptoms of AD are preceded by brain changes. This stresses the need to develop new biomarkers to detect the first stages of the disease. The development of such biomarkers can make easier the design of clinical trials and therefore accelerate the development of new therapies. Over the past decades, the improvement of magnetic resonance imaging (MRI) has led to the development of new imaging biomarkers. Such biomarkers demonstrated their relevance for computer-aided diagnosis but have shown limited performances for AD prognosis. Recently, advanced biomarkers were proposed toimprove computer-aided prognosis. Among them, patch-based grading methods demonstrated competitive results to detect subtle modifications at the earliest stages of AD. Such methods have shown their ability to predict AD several years before the conversion to dementia. For these reasons, we have had a particular interest in patch-based grading methods. First, we studied patch-based grading methods for different anatomical scales (i.e., whole brain, hippocampus, and hippocampal subfields). We adapted patch-based grading method to different MRI modalities (i.e., anatomical MRI and diffusion-weighted MRI) and developed an adaptive fusion scheme. Then, we showed that patch comparisons are improved with the use of multi-directional derivative features. Finally, we proposed a new method based on a graph modeling that enables to combine information from inter-subjects’ similarities and intra-subjects’ variability. The conducted experiments demonstrate that our proposed method enable an improvement of AD detection and prediction

41

Andriamanampisoa, Fenohery Tiana. "Recalage multimodal 3D utilisant le modèle élastique, la méthode des éléments finis et l'information mutuelle dans un environnement parallèle". Toulouse 3, 2008. http://thesesups.ups-tlse.fr/332/.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Pour effectuer des superpositions et éventuellement des fusions des images en imagerie médicale, il est indispensable que les images soient mises en correspondance. Cette étude traite à la fois le recalage rigide et non rigide multimodal. On a choisi la rotation centrée, la translation et le changement d'échelle comme transformation rigide. Pour le recalage non rigide, on s'est basé sur le modèle des matériaux élastiques linéaires isotropes. L'utilisation de la méthode des éléments finis et du maillage uniforme est très attrayante. On a utilisé l'information mutuelle selon Mattes comme critère de similarité et la descente de gradient conjugué comme la méthode d'optimisation. Le portage des algorithmes séquentiels dans l'environnement parallèle sur un vaste panel d'architecture comme le supercalculateur et la grille de calcul est très important. La parallélisation est fondée sur l'architecture SPMD-DM
To superpose and fuse images in medical imagery, it is indispensable that the images are set in correspondence. This survey deals rigid and non-rigid multimodal registration. We have chosen centered rotation, translation and scale transform as geometric transformation. For non-rigid registration, the modelling is based on isotropic elastic linear material model. We use finite elements method and uniform grid for mesh. Besides, one used Mattes mutual information as criteria of similarity and gradient conjugated as the optimization method. Besides, this survey deals the transformation of the registration algorithms in a parallel environment. This work use SPMD-DM architecture and the experimentation is done on supercomputer and large scale network

42

Mihoub, Alaeddine. "Apprentissage statistique de modèles de comportement multimodal pour les agents conversationnels interactifs". Thesis, Université Grenoble Alpes (ComUE), 2015. http://www.theses.fr/2015GREAT079/document.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

L'interaction face-à-face représente une des formes les plus fondamentales de la communication humaine. C'est un système dynamique multimodal et couplé – impliquant non seulement la parole mais de nombreux segments du corps dont le regard, l'orientation de la tête, du buste et du corps, les gestes faciaux et brachio-manuels, etc – d'une grande complexité. La compréhension et la modélisation de ce type de communication est une étape cruciale dans le processus de la conception des agents interactifs capables d'engager des conversations crédibles avec des partenaires humains. Concrètement, un modèle de comportement multimodal destiné aux agents sociaux interactifs fait face à la tâche complexe de générer un comportement multimodal étant donné une analyse de la scène et une estimation incrémentale des objectifs conjoints visés au cours de la conversation. L'objectif de cette thèse est de développer des modèles de comportement multimodal pour permettre aux agents artificiels de mener une communication co-verbale pertinente avec un partenaire humain. Alors que l'immense majorité des travaux dans le domaine de l'interaction humain-agent repose essentiellement sur des modèles à base de règles, notre approche se base sur la modélisation statistique des interactions sociales à partir de traces collectées lors d'interactions exemplaires, démontrées par des tuteurs humains. Dans ce cadre, nous introduisons des modèles de comportement dits "sensori-moteurs", qui permettent à la fois la reconnaissance des états cognitifs conjoints et la génération des signaux sociaux d'une manière incrémentale. En particulier, les modèles de comportement proposés ont pour objectif d'estimer l'unité d'interaction (IU) dans laquelle sont engagés de manière conjointe les interlocuteurs et de générer le comportement co-verbal du tuteur humain étant donné le comportement observé de son/ses interlocuteur(s). Les modèles proposés sont principalement des modèles probabilistes graphiques qui se basent sur les chaînes de markov cachés (HMM) et les réseaux bayésiens dynamiques (DBN). Les modèles ont été appris et évalués – notamment comparés à des classifieurs classiques – sur des jeux de données collectés lors de deux différentes interactions face-à-face. Les deux interactions ont été soigneusement conçues de manière à collecter, en un minimum de temps, un nombre suffisant d'exemplaires de gestion de l'attention mutuelle et de deixis multimodale d'objets et de lieux. Nos contributions sont complétées par des méthodes originales d'interprétation et d'évaluation des propriétés des modèles proposés. En comparant tous les modèles avec les vraies traces d'interactions, les résultats montrent que le modèle HMM, grâce à ses propriétés de modélisation séquentielle, dépasse les simples classifieurs en terme de performances. Les modèles semi-markoviens (HSMM) ont été également testé et ont abouti à un meilleur bouclage sensori-moteur grâce à leurs propriétés de modélisation des durées des états. Enfin, grâce à une structure de dépendances riche apprise à partir des données, le modèle DBN a les performances les plus probantes et démontre en outre la coordination multimodale la plus fidèle aux évènements multimodaux originaux
Face to face interaction is one of the most fundamental forms of human communication. It is a complex multimodal and coupled dynamic system involving not only speech but of numerous segments of the body among which gaze, the orientation of the head, the chest and the body, the facial and brachiomanual movements, etc. The understanding and the modeling of this type of communication is a crucial stage for designing interactive agents capable of committing (hiring) credible conversations with human partners. Concretely, a model of multimodal behavior for interactive social agents faces with the complex task of generating gestural scores given an analysis of the scene and an incremental estimation of the joint objectives aimed during the conversation. The objective of this thesis is to develop models of multimodal behavior that allow artificial agents to engage into a relevant co-verbal communication with a human partner. While the immense majority of the works in the field of human-agent interaction (HAI) is scripted using ruled-based models, our approach relies on the training of statistical models from tracks collected during exemplary interactions, demonstrated by human trainers. In this context, we introduce "sensorimotor" models of behavior, which perform at the same time the recognition of joint cognitive states and the generation of the social signals in an incremental way. In particular, the proposed models of behavior have to estimate the current unit of interaction ( IU) in which the interlocutors are jointly committed and to predict the co-verbal behavior of its human trainer given the behavior of the interlocutor(s). The proposed models are all graphical models, i.e. Hidden Markov Models (HMM) and Dynamic Bayesian Networks (DBN). The models were trained and evaluated - in particular compared with classic classifiers - using datasets collected during two different interactions. Both interactions were carefully designed so as to collect, in a minimum amount of time, a sufficient number of exemplars of mutual attention and multimodal deixis of objects and places. Our contributions are completed by original methods for the interpretation and comparative evaluation of the properties of the proposed models. By comparing the output of the models with the original scores, we show that the HMM, thanks to its properties of sequential modeling, outperforms the simple classifiers in term of performances. The semi-Markovian models (HSMM) further improves the estimation of sensorimotor states thanks to duration modeling. Finally, thanks to a rich structure of dependency between variables learnt from the data, the DBN has the most convincing performances and demonstrates both the best performance and the most faithful multimodal coordination to the original multimodal events

43

Harrando, Ismail. "Representation, information extraction, and summarization for automatic multimedia understanding". Electronic Thesis or Diss., Sorbonne université, 2022. http://www.theses.fr/2022SORUS097.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Que ce soit à la télévision ou sur internet, la production de contenu vidéo connaît un essor sans précédent. La vidéo est devenu non seulement le support dominant pour le divertissement, mais elle est également considérée comme l'avenir de l'éducation, l'information et le loisir. Néanmoins, le paradigme traditionnel de la gestion du multimédia s'avère incapable de suivre le rythme imposé par l'ampleur du volume de contenu créé chaque jour sur les différents canaux de distribution. Ainsi, les tâches de routine telles que l'archivage, l'édition, l'organisation et la recherche de contenu par les créateurs multimédias deviennent d'un coût prohibitif. Du côté de l'utilisateur, la quantité de contenu multimédia distribuée quotidiennement peut être écrasante ; le besoin d'un contenu plus court et plus personnalisé n'a jamais été aussi prononcé. Pour faire progresser l'état de l'art sur ces deux fronts, un certain niveau de compréhension du multimédia doit être atteint par nos ordinateurs. Dans cette thèse, nous proposons d'aborder les multiples défis auxquels sont confrontés le traitement et l'analyse automatique de contenu multimédia, en orientant notre exploration autour de trois axes : 1. la représentation: avec toute sa richesse et sa variété, la modélisation et la représentation du contenu multimédia peut être un défi en soi. 2. la description: La composante textuelle du multimédia peut être exploitée pour générer des descripteurs de haut niveau (annotation) pour le contenu en question. 3. le résumé: où nous étudions la possibilité d'extraire les moments d'intérêt de ce contenu, à la fois pour un résumé centré sur la narration et pour maximiser la mémorabilité
Whether on TV or on the internet, video content production is seeing an unprecedented rise. Not only is video the dominant medium for entertainment purposes, but it is also reckoned to be the future of education, information and leisure. Nevertheless, the traditional paradigm for multimedia management proves to be incapable of keeping pace with the scale brought about by the sheer volume of content created every day across the disparate distribution channels. Thus, routine tasks like archiving, editing, content organization and retrieval by multimedia creators become prohibitively costly. On the user side, too, the amount of multimedia content pumped daily can be simply overwhelming; the need for shorter and more personalized content has never been more pronounced. To advance the state of the art on both fronts, a certain level of multimedia understanding has to be achieved by our computers. In this research thesis, we aim to go about the multiple challenges facing automatic media content processing and analysis, mainly gearing our exploration to three axes: 1. Representing multimedia: With all its richness and variety, modeling and representing multimedia content can be a challenge in itself. 2. Describing multimedia: The textual component of multimedia can be capitalized on to generate high-level descriptors, or annotations, for the content at hand. 3. Summarizing multimedia: we investigate the possibility of extracting highlights from media content, both for narrative-focused summarization and for maximising memorability

44

Sutour, Camille. "Vision nocturne numérique : restauration automatique et recalage multimodal des images à bas niveau de lumière". Thesis, Bordeaux, 2015. http://www.theses.fr/2015BORD0099/document.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

La vision de nuit des pilotes d’hélicoptère est artificiellement assistée par un dispositif de vision bas niveau de lumière constitué d’un intensificateur de lumière (IL) couplé à une caméra numérique d’une part, et d’une caméra infrarouge (IR) d’autre part. L’objectif de cette thèse est d’améliorer ce dispositif en ciblant les défauts afin de les corriger.Une première partie consiste à réduire le bruit dont souffrent les images IL. Cela nécessite d’évaluer la nature du bruit qui corrompt ces images. Pour cela, une méthode d’estimation automatique du bruit est mise en place. L’estimation repose sur la détection non paramétrique de zones homogènes de l’image. Les statistiques du bruit peuvent être alors être estimées à partir de ces régions homogènes à l’aide d’une méthode d’estimation robuste de la fonction de niveau de bruit par minimisation l1.Grâce à l’estimation du bruit, les images IL peuvent alors débruitées. Nous avons pour cela développé dans la seconde partie un algorithme de débruitage d’images qui associe les moyennes non locales aux méthodes variationnelles en effectuant une régularisation adaptative pondérée parune attache aux données non locale. Une adaptation au débruitage de séquences d’images permet ensuite de tenir compte de la redondance d’information apportée par le flux vidéo, en garantissant stabilité temporelle et préservation des structures fines.Enfin, dans la troisième partie les informations issues des capteurs optique et infrarouge sont recalées dans un même référentiel. Nous proposons pour cela un critère de recalage multimodal basé sur l’alignement des contours des images. Combiné à une résolution par montée de gradient et à un schéma temporel, l’approche proposée permet de recaler de façon robuste les deuxmodalités, en vue d’une ultérieure fusion
Night vision for helicopter pilots is artificially enhanced by a night vision system. It consists in a light intensifier (LI) coupled with a numerical camera, and an infrared camera. The goal of this thesis is to improve this device by analyzing the defaults in order to correct them.The first part consists in reducing the noise level on the LI images. This requires to evaluate the nature of the noise corrupting these images, so an automatic noise estimation method has been developed. The estimation is based on a non parametric detection of homogeneous areas.Then the noise statistics are estimated using these homogeneous regions by performing a robust l`1 estimation of the noise level function.The LI images can then be denoised using the noise estimation. We have developed in the second part a denoising algorithm that combines the non local means with variational methods by applying an adaptive regularization weighted by a non local data fidelity term. Then this algorithm is adapted to video denoising using the redundancy provided by the sequences, hence guaranteeing temporel stability and preservation of the fine structures.Finally, in the third part data from the optical and infrared sensors are registered. We propose an edge based multimodal registration metric. Combined with a gradient ascent resolution and a temporel scheme, the proposed method allows robust registration of the two modalities for later fusion

45

Commandeur, Frédéric. "Fusion d'images multimodales pour la caractérisation du cancer de la prostate". Thesis, Rennes 1, 2016. http://www.theses.fr/2016REN1S038/document.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Cette thèse s'inscrit dans le contexte de la caractérisation du cancer de la prostate à partir de données d'imagerie multimodale. L'objectif est d'identifier et de caractériser les tumeurs prostatiques à partir d'observation in-vivo, incluant imagerie par résonance magnétique multiparamétrique (IRMm), tomodensitométrie (TDM) et tomographie par émission de positons (TEP), avec une référence biologique sous forme de lames histologiques fournies par l'analyse anatomopathologique de la prostate après prostatectomie radicale. Nous proposons dans un premier temps deux méthodes de recalage afin de réaliser la mise en correspondance des données multimodales dans un référentiel spatial commun défini par l'IRM. Le premier algorithme s'attache à l'alignement des images TDM/TEP et IRM, en combinant information de contour et probabilité de présence de la prostate. Le second a pour objectif de recaler les images histologiques et IRM. En suivant le protocole de Stanford, la pièce de prostatectomie est découpée plus finement fournissant ainsi plus de lames histologiques qu'en routine clinique. Leur correspondance avec les coupes IRM est alors estimée à l'aide de l'information à priori de la découpe et de points saillants (SURF) extraits dans les deux modalités. Cette initialisation sert de base à un recalage affine puis non-rigide basé sur l'information mutuelle et des cartes de distance obtenues à partir des structures intraprostatiques. Dans un second temps, des caractéristiques structurelles (Haar, Gabor, etc) et fonctionnelles (Ktrans, Kep, SUV, TLG, etc) sont extraites en chaque voxel de la prostate à partir des images IRM et TEP. À ces vecteurs de caractéristiques sont associés les labels biologiques correspondant obtenus lors de l'analyse anatomopathologique. Parmi ces labels, nous disposons d'un score d'agressivité appelé score de Gleason et de scores immunohistochimiques quantifiant certains aspects biologiques des tissus, tels que l'hypoxie et la prolifération cellulaire. Finalement, ces couples (vecteurs de caractéristiques/informations biologiques) servent de données d'apprentissage à l’entraînement de classifieurs RF et SVM, utilisés par la suite pour caractériser les tumeurs à partir de nouvelles observations in-vivo. Dans ces travaux, nous réalisons une étude de faisabilité sur neuf patients
This thesis concerns the prostate cancer characterization based on multimodal imaging data. The purpose is to identify and characterize the tumors using in-vivo observations including mMRI and PET/CT, with a biological reference obtained from anatomopathological analysis of radical prostatectomy specimen providing histological slices. Firstly, we propose two registration methods to match the multimodal images in the the spatial reference defined by MRI. The first algorithm aims at aligning PET/CT images with MRI by combining contours information and presence probability of the prostate. The objective of the second is to register the histological slices with the MRI. Based on the Stanford protocol, a thinner cutting of the radical prostatectomy specimen is done providing more slices compared to clinical routine. The correspondance between histological and MRI slices is then estimated using a combination of the prior information of the slicing and salient points (SURF) extracted in both modalities. This initialization step allows for an affine and non-rigid registration based on mutual information and intraprostatic structures distance map. Secondly, structural (Haar, Garbor, etc) and functional (Ktrans, Kep, SUV, TLG, etc) descriptors are extracted for each prostate voxel over MRI and PET images. Corresponding biological labels obtained from the anatomopathological analysis are associated to the features vectors. The biological labels are composed by the Gleason score providing an information of aggressiveness and immunohistochemistry grades providing a quantification of biological process such as hypoxia and cell growth. Finally, these pairs (features vectors/biological information) are used as training data to build RF and SVM classifiers to characterize tumors from new in-vivo observations. In this work, we perform a feasibility study with nine patients

46

Soury, Mariette. "Détection multimodale du stress pour la conception de logiciels de remédiation". Thesis, Paris 11, 2014. http://www.theses.fr/2014PA112278/document.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Ces travaux de thèse portent sur la reconnaissance automatique du stress chez des humains en interaction dans des situations anxiogènes: prise de parole en public, entretiens et jeux sérieux à partir d'indices audio et visuels.Afin de concevoir des modèles de reconnaissance automatique du stress, nous utilisons : des indices audio calculés à partir de la voix des sujets, capturée par un micro cravate; et des indices visuels calculés soit à partir de l'expression faciale des sujets capturés par une webcam, soit à partir de la posture des sujets capturée par une Kinect. Une partie des travaux portent sur la fusion des informations apportées par les différentes modalités.L'expression et la gestion du stress sont influencées à la fois par des différences interpersonnelles (traits de personnalité, expériences passées, milieu culturel) et contextuelles (type de stresseur, enjeux de la situation). Nous évaluons le stress sur différents publics à travers des corpus de données collectés pendant la thèse: un public sociophobe en situation anxiogène, face à une machine et face à des humains; un public non pathologique en simulation d'entretien d'embauche; et un public non pathologique en interaction face à un ordinateur ou face au robot humanoïde Nao. Les comparaisons inter- individus, et inter-corpus révèlent la diversité de l'expression du stress.Une application de ces travaux pourrait être la conception d'outils thérapeutiques pour la maitrise du stress, notamment à destination des populations phobiques.Mots clé : stress, phobie sociale, détection multimodale du stress , indices audio du stress, indices faciaux du stress, indices posturaux du stress, fusion multimodale
This thesis focuses on the automatic recognition of human stress during stress-inducing interactions (public speaking, job interview and serious games), using audio and visual cues.In order to build automatic stress recognition models, we used audio cues computed from subjects' voice captured via a lapel microphone, and visual cues computed either form subjects' facial expressions captured via a webcam, or subjects' posture captured via a Kinect. Part of this work is dedicated to the study of information fusion form those various modalities.Stress expression and coping are influenced both by interpersonal differences (personality traits, past experiences, cultural background) and contextual differences (type of stressor, situation's stakes). We evaluated stress in various populations in data corpora collected during this thesis: social phobics in anxiety-inducing situations in interaction with a machine and with humans; apathologic subjects in a mock job interview; and apathologic subjects interaction with a computer and with the humanoid robot Nao. Inter-individual and inter-corpora comparisons highlight the variability of stress expression.A possible application of this work could be the elaboration of therapeutic software to learn stress coping strategies, particularly for social phobics.Key words: stress, social phobia, multimodal stress detection, stress audio cues, stress facial cues, stress postural cues, multimodal fusion

47

Yoo, Thomas. "Application of a Multimodal Polarimetric Imager to Study the Polarimetric Response of Scattering Media and Microstructures". Thesis, Université Paris-Saclay (ComUE), 2018. http://www.theses.fr/2018SACLX106/document.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Les travaux réalisés au cours cette thèse ont eu comme objectif l’étude de l’interaction de la lumière polarisée avec des milieux et des particules diffusants. Ces travaux s’inscrivent dans un contexte collaboratif fort entre le LPICM et différents laboratoires privés et publics. Des aspects très variées ont été traités en profondeur dont le développement instrumental, la simulation numérique avancée et la création de protocoles de mesure pour l’interprétation de donnés à caractère complexe.La partie instrumentale de la thèse a été consacrée au développement d’un instrument novateur, adapté à la prise d’images polarimétriques à différents échelles (du millimètre au micron) pouvant être rapidement reconfigurable pour offrir différents modes d’imagerie du même échantillon. Les deux aspects principaux qui caractérisent l’instrument sont i) la possibilité d’obtenir des images polarimétriques réelles de l’échantillon et des images de la distribution angulaire de lumière diffusé par une zone sur l’échantillon dont sa taille et position peuvent être sélectionnée par l’utilisateur à volonté, ii) le contrôle total de l’état de polarisation, de la taille et de la divergence des faisceaux utilisés pour l’éclairage de l’échantillon et pour la réalisation des images de celui-ci. Ces deux aspects ne se trouvent réunis sur aucun autre appareil commercial ou expérimental actuel.Le premier objet d’étude en utilisant le polarimètre imageur multimodal a été l’étude de l’effet de l’épaisseur d’un milieu diffusant sur sa réponse optique. En imagerie médicale il existe un large consensus sur les avantages de l’utilisation de différentes propriétés polarimétriques pour améliorer l’efficacité de techniques optiques de dépistage de différentes maladies. En dépit de ces avantages, l’interprétation des observables polarimétriques en termes de propriétés physiologiques des tissus se trouve souvent obscurcie par l’influence de l’épaisseur, souvent inconnue, de l’échantillon étudié.L’objectif des travaux a été donc, de mieux comprendre la dépendance des propriétés polarimétriques de différents matériaux diffusants avec l’épaisseur de ceux-ci. En conclusion, il a été possible de montrer que, de manière assez universelle, les propriétés polarimétriques des milieux diffusants varient proportionnellement au chemin optique que la lumière a parcouru à l’intérieur du milieu, tandis que le dégrée de polarisation dépend quadratiquement de ce chemin. Cette découverte a pu être ensuite utilisée pour élaborer une méthode d’analyse de données qui permet de s’affranchir de l’effet des variations d’épaisseur des tissus, rendant ainsi les mesures très robustes et liées uniquement aux propriétés intrinsèques des échantillons étudiés.Un deuxième objet d’étude a été la réponse polarimétrique de particules de taille micrométrique. La sélection des particules étudiées par analogie à la taille des cellules qui forment les tissus biologiques et qui sont responsables de la dispersion de la lumière. Grâce à des mesures polarimétriques, il a été découvert que lorsque les microparticules sont éclairées avec une incidence oblique par rapport à l’axe optique du microscope, celles-ci semblent se comporter comme si elles étaient optiquement actives. D’ailleurs, il a été trouvé que la valeur de cette activité optique apparente dépend de la forme des particules étudiées. L’explication de ce phénomène est basée sur l’apparition d’une phase topologique dans le faisceau de lumière. Cette phase topologique dépend du parcours de la lumière diffusée à l’intérieur du microscope. L’observation inédite de cette phase topologique a été possible grâce au fait que l’imageur polarimétrique multimodale permet un éclairage des échantillons à l’incidence oblique. Cette découverte peut améliorer significativement l’efficacité de méthodes optiques pour la détermination de la forme de micro-objets
The work carried out during this thesis was aimed to study the interaction of polarized light from the scattering media and particles. This work is part of a strong collaborative context between the LPICM and various private and public laboratories. A wide variety of aspects have been treated deeply, including instrumental development, advanced numerical simulation and the creation of measurement protocols for the interpretation of complex data.The instrumental part of the thesis was devoted to the development of an innovative instrument, suitable for taking polarimetric images at different scales (from millimeters to microns) that can be quickly reconfigured to offer different imaging modes of the same sample. The two main aspects that characterize the instrument are i) the possibility of obtaining real polarimetric images of the sample and the angular distribution of light scattered by an illuminated zone whose size and position can be controlled, ii) the total control of the polarization state, size and divergence of the beams. These two aspects are not united on any other commercial or experimental apparatus today.The first object of the study using the multimodal imaging polarimeter was to study the effect of the thickness from a scattering medium on its optical response. In medical imaging, there is a broad consensus on the benefits of using different polarimetric properties to improve the effectiveness of optical screening techniques for different diseases. Despite these advantages, the interpretation of the polarimetric responses in terms of the physiological properties of tissues has been obscured by the influence of the unknown thickness of the sample.The objective of the work was, therefore, to better understand the dependence of the polarimetric properties of different scattering materials with the known thickness. In conclusion, it is possible to show that the polarimetric properties of the scattering media vary proportionally with the optical path that the light has traveled inside the medium, whereas the degree of polarization depends quadratically on the optical path. This discovery could be used to develop a method of data analysis that overcomes the effect of thickness variations, thus making the measurements very robust and related only to the intrinsic properties of the samples studied.The second object of study was to study the polarimetric responses from particles of micrometric size. The selection of the particles studied by analogy to the size of the cells that form the biological tissues, and which are responsible for the dispersion of light. By means of the polarimetric measurements, it has been discovered that when the microparticles are illuminated with an oblique incidence with respect to the optical axis of the microscope, they appear to behave as if they were optically active. Moreover, it has been found that the value of this apparent optical activity depends on the shape of the particles. The explanation of this phenomenon is based on the appearance of a topological phase of the beam. This topological phase depends on the path of the light scattered inside the microscope. The unprecedented observation of this topological phase has been done by the fact that the multimodal polarimetric imager allows illumination of the samples at the oblique incidence. This discovery can significantly improve the efficiency of optical methods for determining the shape of micro-objects

48

Rocher, Pierre-Olivier. "Transmodalité de flux d'images de synthèse". Thesis, Saint-Etienne, 2014. http://www.theses.fr/2014STET2026/document.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Ces dernières années, l’utilisation de la vidéo comme support de diffusion de l’information est devenue prépondérante. Selon certains analystes, d’ici 2017, environ 90% de la bande passante mondiale sera consommée par des services utilisant des flux vidéos. Basées sur ce genre de services, les solutions de cloud gaming se démocratisent. Ces solutions ont été imaginées dans un contexte de développement fort du paradigme de cloud computing, et elles ont été dopées par la prolifération des terminaux mobiles ainsi que par la qualité des réseaux qui ne cesse de croître. Les technologies mises en œuvre dans ce type de solutions se réfèrent au rendu à distance. Pour permettre au plus grand nombre l’accès à ce type d’applications, mais aussi pour maximiser le nombre de clients par serveur, il est primordial de maîtriser au mieux la bande passante nécessaire au bon fonctionnement du service. Toutes les solutions de cloud gaming existantes utilisent une compression vidéo pour la transmission des images générées sur un serveur et à destination d’un client : le pixel règne en maître. Néanmoins, il existe bien d’autres façons de représenter une image numérique, notamment de manière paramétrique. Un certain nombre de travaux – à la fois sur l’image et la vidéo – montrent que cette approche est viable. Dans cette thèse, nous proposons un espace de représentation hybride afin de réduire le débit binaire. Notre approche repose à la fois sur une approche pixel, mais aussi sur une approche paramétrique pour la compression d’un même flux vidéo. L’utilisation de deux systèmes de compression nécessite la définition de zones, auxquelles s’appliqueront les différents encodeurs. Pour le cas d’utilisation choisi, l’utilisateur étant un joueur impliqué de manière active dans la chaîne de rendu, il est intéressant d’utiliser un partitionnement de l’image dépendant des zones ou se porte son attention. Pour déterminer les zones importantes à ses yeux, un eye-tracker a été utilisé sur plusieurs jeux et par plusieurs testeurs. Cette étude permet de mettre en avant différentes corrélations, tant au niveau des caractéristiques des images que du type de jeu utilisé. Cette étude permet de connaître les zones que le joueur regarde ou ne regarde pas directement (obtention des « cartes d’attention sélective »), et ainsi de gérer les encodeurs en conséquence. Nous établissons ensuite l’architecture et l’implémentation d’un tel encodeur multimodal (que nous appelons « transmodeur ») afin d’établir la preuve de réalisation d’un tel encodeur. Profitant alors de la maîtrise complète de l’implémentation, nous nous livrons ensuite à l’analyse de l’influence des paramètres de notre transmodeur quant à son efficacité au moyen d’une étude objective. Le transmodeur a été intégré dans la chaîne de rendu utilisée par le projet XLcloud. Un certain nombre d’améliorations (au niveau des performances notamment) seront nécessaires pour une utilisation en production, mais il est dès à présent possible de l’utiliser de manière fluide en se limitant à des résolutions spatiales légèrement inférieures au 720p et à 30 images par seconde
The use of video as an information dissemination support has become preponderant during the last few years. According to some analysts, by 2017 approximately 90% of the world's bandwidth will be consumed by video streaming services. These services have encouraged cloud gaming solutions to become more democratic. Such solutions have been devised in the context of strong development of the cloud-computing paradigm, and they were driven by the proliferation of mobile devices as well as growing network quality. The technologies used in this kind of solutions refer to as remote rendering. They allow the execution of multiple applications, while maximizing the number of clients per server. Thus, it is essential to control the necessary bandwidth to allow the required functionality of various services. The existing cloud gaming solutions in the literature use various methods of video compression to transmit images between sever and clients (pixels reigns supreme). However, there are various other ways of encoding digital images, including parametric map storage and a number of studies encourage this approach (for both image and video). In this thesis, we propose a hybrid representation of space in order to reduce the bit rate. Our approach utilizes both pixel and parametric approaches for the compression of video stream. The use of two compression techniques requires defining the area to be covered by different encoders. This is accomplished by including user to the life cycle of rendering, and attending to the area mostly concerned to the user. In order to identify the area an eye-tracker device was used on several games and several testers. We also establish a correlation between the characteristics of images and the type of game. This helps to identify areas that the player looks directly or indirectly (“maps of selective attention"), and thus, encoders are manager accordingly. For this thesis, we details and implement the architecture and algorithms for such multi-model encoder (which we call "transmodeur") as proof of concept. We also provide an analytical study of out model and the influence of various parameters on transmodeur and describe in effectiveness through an objective study. Our transmodeur (rendering system) has been successfully integrated into XLcloud project for rendering purposes. A number of improvement (especially in performance) will be required for production use, but it is now possible to use it smoothly using spatial resolutions slightly lower than 720p at 30 frames per second

49

Poinsot, Audrey. "Traitements pour la reconnaissance biométrique multimodale : algorithmes et architectures". Thesis, Dijon, 2011. http://www.theses.fr/2011DIJOS010.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Combiner les sources d'information pour créer un système de reconnaissance biométrique multimodal permet d'atténuer les limitations de chaque caractéristique utilisée, et donne l'opportunité d'améliorer significativement les performances. Le travail présenté dans ce manuscrit a été réalisé dans le but de proposer un système de reconnaissance performant, qui réponde à des contraintes d'utilisation grand-public, et qui puisse être implanté sur un système matériel de faible coût. La solution choisie explore les possibilités apportées par la multimodalité, et en particulier par la fusion du visage et de la paume. La chaîne algorithmique propose un traitement basé sur les filtres de Gabor, ainsi qu’une fusion des scores. Une base multimodale réelle de 130 sujets acquise sans contact a été conçue et réalisée pour tester les algorithmes. De très bonnes performances ont été obtenues, et ont été confirmées sur une base virtuelle constituée de deux bases publiques (les bases AR et PolyU). L'étude approfondie de l'architecture des DSP, et les différentes implémentations qui ont été réalisées sur un composant de type TMS320c64x, démontrent qu'il est possible d'implanter le système sur un unique DSP avec des temps de traitement très courts. De plus, un travail de développement conjoint d'algorithmes et d'architectures pour l'implantation FPGA a démontré qu'il était possible de réduire significativement ces temps de traitement
Including multiple sources of information in personal identity recognition reduces the limitations of each used characteristic and gives the opportunity to greatly improve performance. This thesis presents the design work done in order to build an efficient generalpublic recognition system, which can be implemented on a low-cost hardware platform. The chosen solution explores the possibilities offered by multimodality and in particular by the fusion of face and palmprint. The algorithmic chain consists in a processing based on Gabor filters and score fusion. A real database of 130 subjects has been designed and built for the study. High performance has been obtained and confirmed on a virtual database, which consists of two common public biometric databases (AR and PolyU). Thanks to a comprehensive study on the architecture of the DSP components and some implementations carried out on a DSP belonging to the TMS320c64x family, it has been proved that it is possible to implement the system on a single DSP with short processing times. Moreover, an algorithms and architectures development work for FPGA implementation has demonstrated that these times can be significantly reduced

50

Courtial, Nicolas. "Fusion d’images multimodales pour l’assistance de procédures d’électrophysiologie cardiaque". Thesis, Rennes 1, 2020. http://www.theses.fr/2020REN1S015.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Les procédures d’électrophysiologie cardiaque ont démontré leur efficacité pour la suppression de symptômes d’arythmie et d’insuffisance cardiaque. Leur taux de succès dépend de la bonne connaissance de l’état du cœur du patient, en termes de conductivité électrique, de qualité tissulaire, et de propriétés mécaniques. Cette intégration d’informations est un enjeu clinique majeur pour ces thérapies. Cette thèse porte sur le développement et l’exploitation de modèles multimodaux spécifiques au patient, pour la planification et l’assistance de l’ablation par radiofréquences (ARF) et de la thérapie de resynchronisation cardiaque (CRT). Des méthodes de segmentation, de recalage et de fusion d’informations multimodales ont dans un premier temps été établies pour la création de ces modèles, permettant de planifier ces procédures. Puis, des approches spécifiques à chacune ont été mises en œuvre pour intégrer ces modèles dans le bloc opératoire, pour assister le geste clinique. Enfin, une analyse postopératoire a permis la synthèse d’un nouveau descripteur multimodal, visant à prédire la réponse de la CRT suivant le site choisi de stimulation du ventricule gauche. Ces études ont été appliquées et validées pour des patients candidats à la CRT et à l’ARF. Elles ont montré la faisabilité et l’intérêt d’intégrer ces modèles multimodaux dans le workflow clinique pour l’assistance à ces gestes interventionnels
Cardiac electrophysiology procedures have been proved to be efficient to suppress arrythmia and heart failure symptoms. Their success rate depends on patient’s heart condition’s knowledge, including electrical and mechanical functions and tissular quality. It is a major clinical concern for these therapies. This work focuses on the development of specific patient multimodal model to plan and assist radio-frequency ablation (RFA) and cardiac resynchronization therapy (CRT). First, segmentation, registration and fusion methods have been developped to create these models, allowing to plan these interventional procedures. For each therapy, specific means of integration within surgical room have been established, for assistance purposes. Finally, a new multimodal descriptor has been synthesized during a post-procedure analysis, aiming to predict the CRT’s response depending on the left ventricular stimulation site. These studies have been applied and validated on patients candidate to CRT and ARF. They showed the feasibility and interest of integrating such multimodal models in the clinical workflow to assist these procedures

Tesi sul tema "Traitement multimodal"

Cita una fonte nei formati APA, MLA, Chicago, Harvard e in molti altri stili