Dissertations / Theses: 'Traitement des données multimodales'

1

Guislain, Maximilien. "Traitement joint de nuage de points et d'images pour l'analyse et la visualisation des formes 3D." Thesis, Lyon, 2017. http://www.theses.fr/2017LYSE1219/document.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Au cours de la dernière décennie, les technologies permettant la numérisation d'espaces urbains ont connu un développement rapide. Des campagnes d'acquisition de données couvrant des villes entières ont été menées en utilisant des scanners LiDAR (Light Detection And Ranging) installés sur des véhicules mobiles. Les résultats de ces campagnes d'acquisition laser, représentants les bâtiments numérisés, sont des nuages de millions de points pouvant également contenir un ensemble de photographies. On s'intéresse ici à l'amélioration du nuage de points à l'aide des données présentes dans ces photographies. Cette thèse apporte plusieurs contributions notables à cette amélioration. La position et l'orientation des images acquises sont généralement connues à l'aide de dispositifs embarqués avec le scanner LiDAR, même si ces informations de positionnement sont parfois imprécises. Pour obtenir un recalage précis d'une image sur un nuage de points, nous proposons un algorithme en deux étapes, faisant appel à l'information mutuelle normalisée et aux histogrammes de gradients orientés. Cette méthode permet d'obtenir une pose précise même lorsque les estimations initiales sont très éloignées de la position et de l'orientation réelles. Une fois ces images recalées, il est possible de les utiliser pour inférer la couleur de chaque point du nuage en prenant en compte la variabilité des points de vue. Pour cela, nous nous appuyons sur la minimisation d'une énergie prenant en compte les différentes couleurs associables à un point et les couleurs présentes dans le voisinage spatial du point. Bien entendu, les différences d'illumination lors de l'acquisition des données peuvent altérer la couleur à attribuer à un point. Notamment, cette couleur peut dépendre de la présence d'ombres portées amenées à changer avec la position du soleil. Il est donc nécessaire de détecter et de corriger ces dernières. Nous proposons une nouvelle méthode qui s'appuie sur l'analyse conjointe des variations de la réflectance mesurée par le LiDAR et de la colorimétrie des points du nuage. En détectant suffisamment d'interfaces ombre/lumière nous pouvons caractériser la luminosité de la scène et la corriger pour obtenir des scènes sans ombre portée. Le dernier problème abordé par cette thèse est celui de la densification du nuage de points. En effet la densité locale du nuage de points est variable et parfois insuffisante dans certaines zones. Nous proposons une approche applicable directement par la mise en oeuvre d'un filtre bilatéral joint permettant de densifier le nuage de points en utilisant les données des images
Recent years saw a rapid development of city digitization technologies. Acquisition campaigns covering entire cities are now performed using LiDAR (Light Detection And Ranging) scanners embedded aboard mobile vehicles. These acquisition campaigns yield point clouds, composed of millions of points, representing the buildings and the streets, and may also contain a set of images of the scene. The subject developed here is the improvement of the point cloud using the information contained in the camera images. This thesis introduces several contributions to this joint improvement. The position and orientation of acquired images are usually estimated using devices embedded with the LiDAR scanner, even if this information is inaccurate. To obtain the precise registration of an image on a point cloud, we propose a two-step algorithm which uses both Mutual Information and Histograms of Oriented Gradients. The proposed method yields an accurate camera pose, even when the initial estimations are far from the real position and orientation. Once the images have been correctly registered, it is possible to use them to color each point of the cloud while using the variability of the point of view. This is done by minimizing an energy considering the different colors associated with a point and the potential colors of its neighbors. Illumination changes can also change the color assigned to a point. Notably, this color can be affected by cast shadows. These cast shadows are changing with the sun position, it is therefore necessary to detect and correct them. We propose a new method that analyzes the joint variation of the reflectance value obtained by the LiDAR and the color of the points. By detecting enough interfaces between shadow and light, we can characterize the luminance of the scene and to remove the cast shadows. The last point developed in this thesis is the densification of a point cloud. Indeed, the local density of a point cloud varies and is sometimes insufficient in certain areas. We propose a directly applicable approach to increase the density of a point cloud using multiple images

2

Cavalcante, Aguilar Paulo Armando. "Réseaux Évidentiels pour la fusion de données multimodales hétérogènes : application à la détection de chutes." Phd thesis, Institut National des Télécommunications, 2012. http://tel.archives-ouvertes.fr/tel-00789773.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Ces travaux de recherche se sont déroulés dans le cadre du développement d'une application de télévigilance médicale ayant pour but de détecter des situations de détresse à travers l'utilisation de plusieurs types de capteurs. La fusion multi-capteurs peut fournir des informations plus précises et fiables par rapport aux informations provenant de chaque capteur prises séparément. Par ailleurs les données issues de ces capteurs hétérogènes possèdent différents degrés d'imperfection et de confiance. Parmi les techniques de fusion multi-capteurs, les méthodes crédibilistes fondées sur la théorie de Dempster-Shafer sont actuellement considérées comme les plus adaptées à la représentation et au traitement des informations imparfaites, de ce fait permettant une modélisation plus réaliste du problème. En nous appuyant sur une représentation graphique de la théorie de Dempster-Shafer appelée Réseaux Évidentiels, nous proposons une structure de fusion de données hétérogènes issues de plusieurs capteurs pour la détection de chutes afin de maximiser les performances de détection chutes et ainsi de rendre le système plus fiable. La non-stationnarité des signaux recueillis sur les capteurs du système considéré peut conduire à une dégradation des conditions expérimentales, pouvant rendre les Réseaux Évidentiels incohérents dans leurs décisions. Afin de compenser les effets résultant de la non-stationnarité des signaux provenant des capteurs, les Réseaux Évidentiels sont rendus évolutifs dans le temps, ce qui nous a conduit à introduire les Réseaux Evidentiels Dynamiques dans nos traitements et à les évaluer sur des scénarios de chute simulés correspondant à des cas d'usage variés

3

Chlaily, Saloua. "Modèle d'interaction et performances du traitement du signal multimodal." Thesis, Université Grenoble Alpes (ComUE), 2018. http://www.theses.fr/2018GREAT026/document.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Bien que le traitement conjoint des mesures multimodales soit supposé conduire à de meilleures performances que celles obtenues en exploitant une seule modalité ou plusieurs modalités indépendamment, il existe des exemples en littérature qui prouvent que c'est pas toujours vrai. Dans cette thèse, nous analysons rigoureusement, en termes d'information mutuelle et d'erreur d'estimation, les différentes situations de l'analyse multimodale afin de déterminer les conditions conduisant à des performances optimales.Dans la première partie, nous considérons le cas simple de deux ou trois modalités, chacune étant associée à la mesure bruitée d'un signal, avec des liens entre modalités matérialisés par les corrélations entre les parties utiles du signal et par les corrélations les bruits. Nous montrons comment les performances obtenues sont améliorées avec l'exploitation des liens entre les modalités. Dans la seconde partie, nous étudions l'impact sur les performances d'erreurs sur les liens entre modalités. Nous montrons que ces fausses hypothèses dégradent les performances, qui peuvent alors devenir inférieure à celles atteintes avec une seule modalité.Dans le cas général, nous modélisons les multiples modalités comme un canal gaussien bruité. Nous étendons alors des résultats de la littérature en considérant l'impact d'erreurs sur les densités de probabilité du signal et du bruit sur l'information transmise par le canal. Nous analysons ensuite cette relation dans la cas d'un modèle simple de deux modalités. Nos résultats montrent en particulier le fait inattendu qu'une double inadéquation du bruit et du signal peuvent parfois se compenser et ainsi conduire à de très bonnes performances
The joint processing of multimodal measurements is supposed to lead to better performances than those obtained using a single modality or several modalities independently. However, in literature, there are examples that show that is not always true. In this thesis, we analyze, in terms of mutual information and estimation error, the different situations of multimodal analysis in order to determine the conditions to achieve the optimal performances.In the first part, we consider the simple case of two or three modalities, each associated with noisy measurement of a signal. These modalities are linked through the correlations between the useful parts of the signal and the correlations between the noises. We show that the performances are improved if the links between the modalities are exploited. In the second part, we study the impact on performance of wrong links between modalities. We show that these false assumptions decline the performance, which can become lower than the performance achieved using a single modality.In the general case, we model the multiple modalities as a noisy Gaussian channel. We then extend literature results by considering the impact of the errors on signal and noise probability densities on the information transmitted by the channel. We then analyze this relationship in the case of a simple model of two modalities. Our results show in particular the unexpected fact that a double mismatch of the noise and the signal can sometimes compensate for each other, and thus lead to very good performances

4

Aron, Michaël. "Acquisition et modélisation de données articulatoires dans un contexte multimodal." Thesis, Nancy 1, 2009. http://www.theses.fr/2009NAN10097/document.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

La connaissance des positions et des mouvements des articulateurs (lèvres, palais, langue...) du conduit vocal lors de la phonation est un enjeu crucial pour l’étude de la parole. Puisqu’il n’existe pas encore de système permettant l’acquisition de ces positions et de ces mouvements, ce travail de thèse s’intéresse à la fusion de plusieurs modalités d’imagerie et de capteurs de localisation pour l’acquisition des positions des articulateurs dans l’espace et dans le temps. Nous décrivons un ensemble de protocoles et de méthodes pour obtenir et fusionner automatiquement un important volume de données échographiques (imageant en 2D la dynamique de la langue), stéréoscopiques (imageant en 3D la dynamique des lèvres), de capteurs électromagnétiques (capturant des points 3D de la langue et du visage), et d’Imagerie par Résonance Magnétique (IRM) pour acquérir en 3D l’ensemble des articulateurs en position statique. Nos contributions concernent plus particulièrement la synchronisation temporelle, le recalage spatial des données et l’extraction automatique des formes à partir des données (suivi de la langue dans les images échographiques). Nous évaluons la précision sur chaque donnée extraite, ainsi que sur l’ensemble des données fusionnées. Nous les validons enfin sur un modèle articulatoire existant. Ces travaux permettent l’obtention de données bien fondées pour la mise en place et l’étude de modèles articulatoires pour des applications en parole
There is no single technique that will allow all relevant behaviour of the speech articulators (lips, tongue, palate...) to be spatially ant temporally acquired. Thus, this thesis investigates the fusion of multimodal articulatory data. A framework is described in order to acquire and fuse automatically an important database of articulatory data. This includes: 2D Ultrasound (US) data to recover the dynamic of the tongue, stereovision data to recover the 3D dynamic of the lips, electromagnetic sensors that provide 3D position of points on the face and the tongue, and 3D Magnetic Resonance Imaging (MRI) that depict the vocal tract for various sustained articulations. We investigate the problems of the temporal synchronization and the spatial registration between all these modalities, and also the extraction of the shape articulators from the data (tongue tracking in US images). We evaluate the uncertainty of our system by quantifying the spatial and temporal inaccuracies of the components of the system, both individually and in combination. Finally, the fused data are evaluated on an existing articulatory model to assess their quality for an application in speech production

5

Chesnel, Anne-Lise. "Quantification de dégâts sur le bâti liés aux catastrophes majeures par images satellite multimodales très haute résolution." Phd thesis, École Nationale Supérieure des Mines de Paris, 2008. http://pastel.archives-ouvertes.fr/pastel-00004211.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Lors d'une catastrophe majeure, il est nécessaire de connaître rapidement l'importance des dégâts sur les bâtiments. Actuellement, cette quantification de dégâts se fait manuellement par comparaison visuelle d'images satellite. Les méthodes automatiques sont immatures ; leurs performances étant rarement évaluées, elles ne sont pas utilisées par les opérationnels. Nous proposons un protocole standard d'évaluation des performances de méthodes de quantification de dégâts. Il s'appuie sur des bases de données de référence obtenues pour cinq cas de catastrophes variées. Celles-ci contiennent pour chaque bâtiment l'emprise de son toit dans chaque image, ainsi qu'un degré de dégâts. Le protocole permet de quantifier les performances d'une méthode et de confronter ses résultats à d'autres. Disposant de ce protocole d'évaluation, nous proposons une méthode de quantification de dégâts à partir d'un couple d'images satellites panchromatiques de très haute résolution (THR) spatiale et d'un ensemble d'objets d'intérêt définis dans l'image de référence. La méthode développée doit pouvoir conduire à des résultats satisfaisants et reproductibles en utilisant des images de modalités différentes, et être automatisée au mieux. Les dégâts sur les bâtiments sont quantifiés par l'amplitude des changements sur leurs toits. Pour comparer ces derniers, ils doivent être alignés. Le recalage géométrique des données THR est un problème complexe non résolu ; une nouvelle méthode adaptée à notre problème est développée et évaluée. Elle aboutit à des résultats généralement satisfaisants pour notre application. Des indices de changements sont ensuite extraits. Deux coefficients de corrélation et des indices de texture obtenus par filtrage sont extraits, et un degré de dégâts est attribué à chacun des bâtiments par classification supervisée. L'impact des différences de modalité des images sur les performances de notre méthode est évalué. La méthode proposée est rapide, en grande partie généralisable et robuste à l'utilisation d'images THR de différentes résolutions ou issues de couples multicapteurs ; le paramètre influant est le B/H du couple.

6

Boscaro, Anthony. "Analyse multimodale et multicritères pour l'expertise et la localisation de défauts dans les composants électriques modernes." Thesis, Bourgogne Franche-Comté, 2017. http://www.theses.fr/2017UBFCK014/document.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Ce manuscrit de thèse illustre l’ensemble des travaux de recherche répondant aux problématiques de traitement des données issues des techniques de localisation de défauts. Cette phase de localisation étant une étape déterminante dans le processus d’analyse de défaillances des circuits submicroniques, il est primordial que l’analyste exploite les résultats de l’émission de lumière et du sondage laser. Cependant, ce procédé d’expertise reste séquentiel et dépend uniquement du jugement de l’expert. Cela induit une probabilité de localisation non quantifiée. Afin de pallier ces différents défis, nous avons développé tout au long de cette thèse, une méthodologie d’analyse multimodale et multicritères exploitant le caractère hétérogène et complémentaire des techniques d’émission de lumière et de sondage laser. Ce type d’analyse reposera sur des outils de haut niveau tels que le traitement du signal et la fusion de données, pour au final apporter une aide décisionnelle à l’expert à la fois qualitative et quantitative.Dans un premier temps, nous détaillerons l’ensemble des traitements utilisés en post-acquisition pour l’amélioration des données 1D et 2D. Par la suite, l’analyse spatio-temporelle des données en sondage laser sera explicitée. L’aide décisionnelle fera l’objet de la dernière partie de ce manuscrit, illustrant la méthode de fusion de données utilisée ainsi que des résultats de validation
The purpose of this manuscript is to exhibit the research work solving the issue of data processing stem from defect localization techniques. This step being decisive in the failure analysis process, scientists have to harness data coming from light emission and laser techniques. Nevertheless, this analysis process is sequential and only depends on the expert’s decision. This factor leads to a not quantified probability of localization. Consequently to solve these issues, a multimodaland multicriteria analysis has been developped, taking advantage of the heterogeneous and complementary nature of light emission and laser probing techniques. This kind of process is based on advanced level tools such as signal/image processing and data fusion. The final aim being to provide a quantitive and qualitative decision help for the experts.The first part of this manuscript is dedicated to the description of the entire process for 1D and 2D data enhancement. Thereafter, the spatio-temporal analysis of laser probing waveforms will be tackled. Finally, the last part highlights the decision support brought by data fusion

7

Wang, Xin. "Gaze based weakly supervised localization for image classification : application to visual recognition in a food dataset." Electronic Thesis or Diss., Paris 6, 2017. http://www.theses.fr/2017PA066577.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Dans cette dissertation, nous discutons comment utiliser les données du regard humain pour améliorer la performance du modèle d'apprentissage supervisé faible dans la classification des images. Le contexte de ce sujet est à l'ère de la technologie de l'information en pleine croissance. En conséquence, les données à analyser augmentent de façon spectaculaire. Étant donné que la quantité de données pouvant être annotées par l'humain ne peut pas tenir compte de la quantité de données elle-même, les approches d'apprentissage supervisées bien développées actuelles peuvent faire face aux goulets d'étranglement l'avenir. Dans ce contexte, l'utilisation de annotations faibles pour les méthodes d'apprentissage à haute performance est digne d'étude. Plus précisément, nous essayons de résoudre le problème à partir de deux aspects: l'un consiste à proposer une annotation plus longue, un regard de suivi des yeux humains, comme une annotation alternative par rapport à l'annotation traditionnelle longue, par exemple boîte de délimitation. L'autre consiste à intégrer l'annotation du regard dans un système d'apprentissage faiblement supervisé pour la classification de l'image. Ce schéma bénéficie de l'annotation du regard pour inférer les régions contenant l'objet cible. Une propriété utile de notre modèle est qu'elle exploite seulement regardez pour la formation, alors que la phase de test est libre de regard. Cette propriété réduit encore la demande d'annotations. Les deux aspects isolés sont liés ensemble dans nos modèles, ce qui permet d'obtenir des résultats expérimentaux compétitifs
In this dissertation, we discuss how to use the human gaze data to improve the performance of the weak supervised learning model in image classification. The background of this topic is in the era of rapidly growing information technology. As a consequence, the data to analyze is also growing dramatically. Since the amount of data that can be annotated by the human cannot keep up with the amount of data itself, current well-developed supervised learning approaches may confront bottlenecks in the future. In this context, the use of weak annotations for high-performance learning methods is worthy of study. Specifically, we try to solve the problem from two aspects: One is to propose a more time-saving annotation, human eye-tracking gaze, as an alternative annotation with respect to the traditional time-consuming annotation, e.g. bounding box. The other is to integrate gaze annotation into a weakly supervised learning scheme for image classification. This scheme benefits from the gaze annotation for inferring the regions containing the target object. A useful property of our model is that it only exploits gaze for training, while the test phase is gaze free. This property further reduces the demand of annotations. The two isolated aspects are connected together in our models, which further achieve competitive experimental results

8

Wang, Xin. "Gaze based weakly supervised localization for image classification : application to visual recognition in a food dataset." Thesis, Paris 6, 2017. http://www.theses.fr/2017PA066577/document.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Dans cette dissertation, nous discutons comment utiliser les données du regard humain pour améliorer la performance du modèle d'apprentissage supervisé faible dans la classification des images. Le contexte de ce sujet est à l'ère de la technologie de l'information en pleine croissance. En conséquence, les données à analyser augmentent de façon spectaculaire. Étant donné que la quantité de données pouvant être annotées par l'humain ne peut pas tenir compte de la quantité de données elle-même, les approches d'apprentissage supervisées bien développées actuelles peuvent faire face aux goulets d'étranglement l'avenir. Dans ce contexte, l'utilisation de annotations faibles pour les méthodes d'apprentissage à haute performance est digne d'étude. Plus précisément, nous essayons de résoudre le problème à partir de deux aspects: l'un consiste à proposer une annotation plus longue, un regard de suivi des yeux humains, comme une annotation alternative par rapport à l'annotation traditionnelle longue, par exemple boîte de délimitation. L'autre consiste à intégrer l'annotation du regard dans un système d'apprentissage faiblement supervisé pour la classification de l'image. Ce schéma bénéficie de l'annotation du regard pour inférer les régions contenant l'objet cible. Une propriété utile de notre modèle est qu'elle exploite seulement regardez pour la formation, alors que la phase de test est libre de regard. Cette propriété réduit encore la demande d'annotations. Les deux aspects isolés sont liés ensemble dans nos modèles, ce qui permet d'obtenir des résultats expérimentaux compétitifs
In this dissertation, we discuss how to use the human gaze data to improve the performance of the weak supervised learning model in image classification. The background of this topic is in the era of rapidly growing information technology. As a consequence, the data to analyze is also growing dramatically. Since the amount of data that can be annotated by the human cannot keep up with the amount of data itself, current well-developed supervised learning approaches may confront bottlenecks in the future. In this context, the use of weak annotations for high-performance learning methods is worthy of study. Specifically, we try to solve the problem from two aspects: One is to propose a more time-saving annotation, human eye-tracking gaze, as an alternative annotation with respect to the traditional time-consuming annotation, e.g. bounding box. The other is to integrate gaze annotation into a weakly supervised learning scheme for image classification. This scheme benefits from the gaze annotation for inferring the regions containing the target object. A useful property of our model is that it only exploits gaze for training, while the test phase is gaze free. This property further reduces the demand of annotations. The two isolated aspects are connected together in our models, which further achieve competitive experimental results

9

Chen, Jianan. "Deep Learning Based Multimodal Retrieval." Electronic Thesis or Diss., Rennes, INSA, 2023. http://www.theses.fr/2023ISAR0019.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Les tâches multimodales jouent un rôle crucial dans la progression vers l'atteinte de l'intelligence artificielle (IA) générale. L'objectif principal de la recherche multimodale est d'exploiter des algorithmes d'apprentissage automatique pour extraire des informations sémantiques pertinentes, en comblant le fossé entre différentes modalités telles que les images visuelles, le texte linguistique et d'autres sources de données. Il convient de noter que l'entropie de l'information associée à des données hétérogènes pour des sémantiques de haut niveau identiques varie considérablement, ce qui pose un défi important pour les modèles multimodaux. Les modèles de réseau multimodal basés sur l'apprentissage profond offrent une solution efficace pour relever les difficultés découlant des différences substantielles d'entropie de l’information. Ces modèles présentent une précision et une stabilité impressionnantes dans les tâches d'appariement d'informations multimodales à grande échelle, comme la recherche d'images et de textes. De plus, ils démontrent de solides capacités d'apprentissage par transfert, permettant à un modèle bien entraîné sur une tâche multimodale d'être affiné et appliqué à une nouvelle tâche multimodale. Dans nos recherches, nous développons une nouvelle base de données multimodale et multi-vues générative spécifiquement conçue pour la tâche de segmentation référentielle multimodale. De plus, nous établissons une référence de pointe (SOTA) pour les modèles de segmentation d'expressions référentielles dans le domaine multimodal. Les résultats de nos expériences comparatives sont présentés de manière visuelle, offrant des informations claires et complètes
Multimodal tasks play a crucial role in the progression towards achieving general artificial intelligence (AI). The primary goal of multimodal retrieval is to employ machine learning algorithms to extract relevant semantic information, bridging the gap between different modalities such as visual images, linguistic text, and other data sources. It is worth noting that the information entropy associated with heterogeneous data for the same high-level semantics varies significantly, posing a significant challenge for multimodal models. Deep learning-based multimodal network models provide an effective solution to tackle the difficulties arising from substantial differences in information entropy. These models exhibit impressive accuracy and stability in large-scale cross-modal information matching tasks, such as image-text retrieval. Furthermore, they demonstrate strong transfer learning capabilities, enabling a well-trained model from one multimodal task to be fine-tuned and applied to a new multimodal task, even in scenarios involving few-shot or zero-shot learning. In our research, we develop a novel generative multimodal multi-view database specifically designed for the multimodal referential segmentation task. Additionally, we establish a state-of-the-art (SOTA) benchmark and multi-view metric for referring expression segmentation models in the multimodal domain. The results of our comparative experiments are presented visually, providing clear and comprehensive insights

10

Guillaumin, Matthieu. "Données multimodales pour l'analyse d'image." Phd thesis, Grenoble, 2010. http://www.theses.fr/2010GRENM048.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

La présente thèse s'intéresse à l'utilisation de méta-données textuelles pour l'analyse d'image. Nous cherchons à utiliser ces informations additionelles comme supervision faible pour l'apprentissage de modèles de reconnaissance visuelle. Nous avons observé un récent et grandissant intérêt pour les méthodes capables d'exploiter ce type de données car celles-ci peuvent potentiellement supprimer le besoin d'annotations manuelles, qui sont coûteuses en temps et en ressources. Nous concentrons nos efforts sur deux types de données visuelles associées à des informations textuelles. Tout d'abord, nous utilisons des images de dépêches qui sont accompagnées de légendes descriptives pour s'attaquer à plusieurs problèmes liés à la reconnaissance de visages. Parmi ces problèmes, la vérification de visages est la tâche consistant à décider si deux images représentent la même personne, et le nommage de visages cherche à associer les visages d'une base de données à leur noms corrects. Ensuite, nous explorons des modèles pour prédire automatiquement les labels pertinents pour des images, un problème connu sous le nom d'annotation automatique d'image. Ces modèles peuvent aussi être utilisés pour effectuer des recherches d'images à partir de mots-clés. Nous étudions enfin un scénario d'apprentissage multimodal semi-supervisé pour la catégorisation d'image. Dans ce cadre de travail, les labels sont supposés présents pour les données d'apprentissage, qu'elles soient manuellement annotées ou non, et absentes des données de test. Nos travaux se basent sur l'observation que la plupart de ces problèmes peuvent être résolus si des mesures de similarité parfaitement adaptées sont utilisées. Nous proposons donc de nouvelles approches qui combinent apprentissage de distance, modèles par plus proches voisins et méthodes par graphes pour apprendre, à partir de données visuelles et textuelles, des similarités visuelles spécifiques à chaque problème. Dans le cas des visages, nos similarités se concentrent sur l'identité des individus tandis que, pour les images, elles concernent des concepts sémantiques plus généraux. Expérimentalement, nos approches obtiennent des performances à l'état de l'art sur plusieurs bases de données complexes. Pour les deux types de données considérés, nous montrons clairement que l'apprentissage bénéficie de l'information textuelle supplémentaire résultant en l'amélioration de la performance des systèmes de reconnaissance visuelle
This dissertation delves into the use of textual metadata for image understanding. We seek to exploit this additional textual information as weak supervision to improve the learning of recognition models. There is a recent and growing interest for methods that exploit such data because they can potentially alleviate the need for manual annotation, which is a costly and time-consuming process. We focus on two types of visual data with associated textual information. First, we exploit news images that come with descriptive captions to address several face related tasks, including face verification, which is the task of deciding whether two images depict the same individual, and face naming, the problem of associating faces in a data set to their correct names. Second, we consider data consisting of images with user tags. We explore models for automatically predicting tags for new images, i. E. Image auto-annotation, which can also used for keyword-based image search. We also study a multimodal semi-supervised learning scenario for image categorisation. In this setting, the tags are assumed to be present in both labelled and unlabelled training data, while they are absent from the test data. Our work builds on the observation that most of these tasks can be solved if perfectly adequate similarity measures are used. We therefore introduce novel approaches that involve metric learning, nearest neighbour models and graph-based methods to learn, from the visual and textual data, task-specific similarities. For faces, our similarities focus on the identities of the individuals while, for images, they address more general semantic visual concepts. Experimentally, our approaches achieve state-of-the-art results on several standard and challenging data sets. On both types of data, we clearly show that learning using additional textual information improves the performance of visual recognition systems

11

Guillaumin, Matthieu. "Données multimodales pour l'analyse d'image." Phd thesis, Grenoble, 2010. http://tel.archives-ouvertes.fr/tel-00522278/en/.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

La présente thèse s'intéresse à l'utilisation de méta-données textuelles pour l'analyse d'image. Nous cherchons à utiliser ces informations additionelles comme supervision faible pour l'apprentissage de modèles de reconnaissance visuelle. Nous avons observé un récent et grandissant intérêt pour les méthodes capables d'exploiter ce type de données car celles-ci peuvent potentiellement supprimer le besoin d'annotations manuelles, qui sont coûteuses en temps et en ressources. Nous concentrons nos efforts sur deux types de données visuelles associées à des informations textuelles. Tout d'abord, nous utilisons des images de dépêches qui sont accompagnées de légendes descriptives pour s'attaquer à plusieurs problèmes liés à la reconnaissance de visages. Parmi ces problèmes, la vérification de visages est la tâche consistant à décider si deux images représentent la même personne, et le nommage de visages cherche à associer les visages d'une base de données à leur noms corrects. Ensuite, nous explorons des modèles pour prédire automatiquement les labels pertinents pour des images, un problème connu sous le nom d'annotation automatique d'image. Ces modèles peuvent aussi être utilisés pour effectuer des recherches d'images à partir de mots-clés. Nous étudions enfin un scénario d'apprentissage multimodal semi-supervisé pour la catégorisation d'image. Dans ce cadre de travail, les labels sont supposés présents pour les données d'apprentissage, qu'elles soient manuellement annotées ou non, et absentes des données de test. Nos travaux se basent sur l'observation que la plupart de ces problèmes peuvent être résolus si des mesures de similarité parfaitement adaptées sont utilisées. Nous proposons donc de nouvelles approches qui combinent apprentissage de distance, modèles par plus proches voisins et méthodes par graphes pour apprendre, à partir de données visuelles et textuelles, des similarités visuelles spécifiques à chaque problème. Dans le cas des visages, nos similarités se concentrent sur l'identité des individus tandis que, pour les images, elles concernent des concepts sémantiques plus généraux. Expérimentalement, nos approches obtiennent des performances à l'état de l'art sur plusieurs bases de données complexes. Pour les deux types de données considérés, nous montrons clairement que l'apprentissage bénéficie de l'information textuelle supplémentaire résultant en l'amélioration de la performance des systèmes de reconnaissance visuelle.

12

Guo, Yan. "Perception multimodale pour un robot mobile en milieu marin." Phd thesis, Université Pierre et Marie Curie - Paris VI, 2011. http://tel.archives-ouvertes.fr/tel-00637552.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Dans le domaine de la robotique, les véhicules autonomes de surface en milieu marin jouent un rôle important. Ils permettent de réaliser des opérations dangereuses, comme la surveillance d'environnements marins ou encore des relevés hydrographiques. Avant d'envisager le déplacement d'un véhicule autonome de surface, il est nécessaire d'assurer sa perception de l'environnement. Elle consiste à observer, localiser et éviter les obstacles. A cause des contraintes technologiques, la complexité de l'environnement naturel, et de la diversité des situations rencontrées, il est difficile d'effectuer une plate-forme parfaitement autonome et adaptée à des applications variées. Cette thèse s'inscrit dans le cadre du projet ASAROME (Autonomous SAiling Robot for Oceanographic MEasurements), un projet de réalisation d'un voilier autonome pour des missions de mesures et d'observations de longues durées. Dans un premier temps, nous avons conçu une plate-forme de perception composée de plusieurs types de capteurs : hydrophones, caméra panoramique, centrale inertielle et sonar. A partir des signaux acquis pendant des campagnes de test, nous avons développé des méthodes de traitement du signal. Elles consistent à analyser et traiter des signaux sonores sous-marins et des images panoramiques pour la reconnaissance d'objets, la détection et la localisation d'obstacles. Pour améliorer la perception des obstacles, des méthodes de fusion de données multi-capteurs ont été développées. L'ensemble des algorithmes ont été validés expérimentalement, en lac puis en mer. Ce travail n'est que le premier pas vers la réalisation d'un robot autonome en milieu marin capable de réaliser des missions complexes de longue durée, mais il montre sa faisabilité par le développement de capacités de perception adaptées.

13

Istrate, Dan. "Contribution à l'analyse de l'environnement sonore et à la fusion multimodale pour l'identification d'activités dans le cadre de la télévigilance médicale." Habilitation à diriger des recherches, Université d'Evry-Val d'Essonne, 2011. http://tel.archives-ouvertes.fr/tel-00790339.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

La télévigilance médicale représente un enjeu de la société d'aujourd'hui. En effet l'espérance de vie augmente dans tous les pays industrialisés et les prévisions statistiques annoncent un nombre important de personnes âgées (17% de 60-74 ans en 2030) ou très âgées (12% de plus 75 ans en 2030). Grâce à la progression de la médecine ces personnes peuvent être maintenues plus longtemps à leur domicile mais demeurent plus fragiles et nécessitent donc des solutions techniques permettant d'améliorer leur confort et de faciliter la tâche des aidants. Ce mémoire donne une synthèse des activités de recherche menées par l'auteur dans le domaine de la télévigilance médicale. Cette recherche est structurée en deux axes : l'analyse de l'environnement sonore et la fusion de données multimodales. L'environnement sonore est très riche en informations utilisables, directement ou à travers l'analyse des activités de la personne pour détecter ou prévoir une situation de détresse. L'analyse sonore est soumise aux contraintes de l'acquisition sonore distante, à la présence des bruits provenant de l'extérieur et à la grande variabilité des sons à reconnaître. Le manuscrit décrit différentes solutions adoptées, leur mise en oeuvre et leur évaluation dans le cadre de plusieurs projets de recherche nationaux et européens. Le deuxième axe porte sur la fusion de la sortie de l'analyse sonore avec d'autres capteurs en vue d'améliorer la robustesse du système. La fusion de données doit traiter des signaux de natures différentes (signaux binaires ou continus), avec des périodicités différentes et de différentes temporalités (périodiques ou asynchrones). Deux techniques (logique floue et réseaux d'évidence) sont étudiées, adaptées et évaluées dans plusieurs projets de recherche. Le mémoire se termine avec les perspectives de recherche de l'auteur. Six publications scientifiques sont finalement annexées.

14

Rabhi, Sara. "Optimized deep learning-based multimodal method for irregular medical timestamped data." Electronic Thesis or Diss., Institut polytechnique de Paris, 2022. http://www.theses.fr/2022IPPAS003.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

L'adoption des dossiers médicaux électroniques dans les systèmes d'information des hôpitaux a conduit à la définition de bases de données regroupant divers types de données telles que des notes cliniques textuelles, des événements médicaux longitudinaux et des informations statiques sur les patients. Toutefois, les données ne sont renseignées que lors des consultations médicales ou des séjours hospitaliers. La fréquence de ces visites varie selon l’état de santé du patient. Ainsi, un système capable d'exploiter les différents types de données collectées à différentes échelles de temps est essentiel pour reconstruire la trajectoire de soin du patient, analyser son historique et délivrer des soins adaptés. Ce travail de thèse aborde deux défis principaux du traitement des données médicales : Représenter la séquence des observations médicales à échantillonnage irrégulier et optimiser l'extraction des événements médicaux à partir des textes de notes cliniques. Notre objectif principal est de concevoir une représentation multimodale de la trajectoire de soin du patient afin de résoudre les problèmes de prédiction clinique. Notre premier travail porte sur la modélisation des séries temporelles médicales irrégulières afin d'évaluer l'importance de considérer les écarts de temps entre les visites médicales dans la représentation de la trajectoire de soin d'un patient donné. À cette fin, nous avons mené une étude comparative entre les réseaux de neurones récurrents, les modèles basés sur l’architecture « Transformer » et les techniques de représentation du temps. De plus, l'objectif clinique était de prédire les complications de la rétinopathie chez les patients diabétiques de type 1 de la base de données française CaRéDIAB (Champagne Ardenne Réseau Diabète) en utilisant leur historique de mesures HbA1c. Les résultats de l'étude ont montré que le modèle « Transformer », combiné à la représentation `Soft-One-Hot` des écarts temporels a conduit à un score AUC de 88,65% (spécificité de 85,56%, sensibilité de 83,33%), soit une amélioration de 4,3% par rapport au modèle « LSTM ». Motivés par ces résultats, nous avons étendu notre étude à des séries temporelles multivariées plus courtes et avons prédit le risque de mortalité à l'hôpital pour les patients présents dans la base de données MIMIC-III. L'architecture proposée, HiTT, a amélioré le score AUC de 5 % par rapport à l’architecture « Transformer ». Dans la deuxième étape, nous nous sommes intéressés à l'extraction d'informations médicales à partir des comptes rendus médicaux afin d'enrichir la trajectoire de soin du patient. En particulier, les réseaux de neurones basés sur le module « Transformer » ont montré des résultats encourageants dans d'extraction d'informations médicales. Cependant, ces modèles complexes nécessitent souvent un grand corpus annoté. Cette exigence est difficile à atteindre dans le domaine médical car elle nécessite l'accès à des données privées de patients et des annotateurs experts. Pour réduire les coûts d'annotation, nous avons exploré les stratégies d'apprentissage actif qui se sont avérées efficaces dans de nombreuses tâches, notamment la classification de textes, l’analyse d’image et la reconnaissance vocale. En plus des méthodes existantes, nous avons défini une stratégie d'apprentissage actif, Hybrid Weighted Uncertainty Sampling, qui utilise la représentation cachée du texte donnée par le modèle pour mesurer la représentativité des échantillons. Une simulation utilisant les données du challenge i2b2-2010 a montré que la métrique proposée réduit le coût d'annotation de 70% pour atteindre le même score de performance que l'apprentissage passif. Enfin, nous avons combiné des séries temporelles médicales multivariées et des concepts médicaux extraits des notes cliniques de la base de données MIMIC-III pour entraîner une architecture multimodale. Les résultats du test ont montré une amélioration de 5,3% en considérant les informations textuelles
The wide adoption of Electronic Health Records in hospitals’ information systems has led to the definition of large databases grouping various types of data such as textual notes, longitudinal medical events, and tabular patient information. However, the records are only filled during consultations or hospital stays that depend on the patient’s state, and local habits. A system that can leverage the different types of data collected at different time scales is critical for reconstructing the patient’s health trajectory, analyzing his history, and consequently delivering more adapted care.This thesis work addresses two main challenges of medical data processing: learning to represent the sequence of medical observations with irregular elapsed time between consecutive visits and optimizing the extraction of medical events from clinical notes. Our main goal is to design a multimodal representation of the patient’s health trajectory to solve clinical prediction problems. Our first work built a framework for modeling irregular medical time series to evaluate the importance of considering the time gaps between medical episodes when representing a patient’s health trajectory. To that end, we conducted a comparative study of sequential neural networks and irregular time representation techniques. The clinical objective was to predict retinopathy complications for type 1 diabetes patients in the French database CaRéDIAB (Champagne Ardenne Réseau Diabetes) using their history of HbA1c measurements. The study results showed that the attention-based model combined with the soft one-hot representation of time gaps led to AUROC score of 88.65% (specificity of 85.56%, sensitivity of 83.33%), an improvement of 4.3% when compared to the LSTM-based model. Motivated by these results, we extended our framework to shorter multivariate time series and predicted in-hospital mortality for critical care patients of the MIMIC-III dataset. The proposed architecture, HiTT, improved the AUC score by 5% over the Transformer baseline. In the second step, we focused on extracting relevant medical information from clinical notes to enrich the patient’s health trajectories. Particularly, Transformer-based architectures showed encouraging results in medical information extraction tasks. However, these complex models require a large, annotated corpus. This requirement is hard to achieve in the medical field as it necessitates access to private patient data and high expert annotators. To reduce annotation cost, we explored active learning strategies that have been shown to be effective in tasks such as text classification, information extraction, and speech recognition. In addition to existing methods, we defined a Hybrid Weighted Uncertainty Sampling active learning strategy that takes advantage of the contextual embeddings learned by the Transformer-based approach to measuring the representativeness of samples. A simulated study using the i2b2-2010 challenge dataset showed that our proposed metric reduces the annotation cost by 70% to achieve the same score as passive learning. Lastly, we combined multivariate medical time series and medical concepts extracted from clinical notes of the MIMIC-III database to train a multimodal transformer-based architecture. The test results of the in-hospital mortality task showed an improvement of 5.3% when considering additional text data. This thesis contributes to patient health trajectory representation by alleviating the burden of episodic medical records and the manual annotation of free-text notes

15

Hannachi, Ammar. "Imagerie multimodale et planification interactive pour la reconstruction 3D et la métrologie dimensionnelle." Thesis, Strasbourg, 2015. http://www.theses.fr/2015STRAD024/document.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

La fabrication de pièces manufacturées génère un nombre très important de données de différents types définissant les géométries de fabrication ainsi que la qualité de production. Ce travail de thèse s’inscrit dans le cadre de la réalisation d’un système de vision cognitif dédié à l’évaluation d’objets 3D manufacturés incluant éventuellement des surfaces gauches, en tenant compte des tolérances géométriques et des incertitudes. Ce système permet un contrôle exhaustif de pièces manufacturées et offre la possibilité d’une inspection tridimensionnelle automatique de la pièce. La mise en place d’un système de mesures multi-capteurs (passifs et actifs) a permis d’améliorer significativement la qualité d’évaluation par le biais d’une reconstruction tridimensionnelle enrichie de l’objet à évaluer. En particulier, nous avons employé simultanément un système stéréoscopique de vision et un système à projection de lumière structurée afin de reconstruire les contours et les surfaces de différents objets 3D
Producing industrially manufactured parts generates a very large number of data of various types defining the manufacturing geometries as well as the quality of production. This PhD work has been carried out within the framework of the realization of a cognitive vision system dedicated to the 3D evaluation of manufactured objects including possibly free form surfaces, taking into account the geometric tolerances and uncertainties. This system allows the comprehensive control of manufactured parts, and provides the means for their automated 3D dimensional inspection. The implementation of a multi-sensor (passive and active) measuring system enabled to improve significantly the assessment quality through an enriched three-dimensional reconstruction of the object to be evaluated. Specifically, we made use simultaneously of a stereoscopic vision system and of a structured light based system in order to reconstruct the edges and surfaces of various 3D objects

16

Meseguer, Brocal Gabriel. "Multimodal analysis : informed content estimation and audio source separation." Electronic Thesis or Diss., Sorbonne université, 2020. http://www.theses.fr/2020SORUS111.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Cette thèse propose l'étude de l'apprentissage multimodal dans le contexte de signaux musicaux. Tout au long de ce manuscrit, nous nous concentrerons sur l'interaction entre les signaux audio et les informations textuelles. Parmi les nombreuses sources de texte liées à la musique qui peuvent être utilisées (par exemple les critiques, les métadonnées ou les commentaires des réseaux sociaux), nous nous concentrerons sur les paroles. La voix chantée relie directement le signal audio et les informations textuelles d'une manière unique, combinant mélodie et paroles où une dimension linguistique complète l'abstraction des instruments de musique. Notre étude se focalise sur l'interaction audio et paroles pour cibler la séparation de sources et l'estimation de contenu informé. Les stimuli du monde réel sont produits par des phénomènes complexes et leur interaction constante dans divers domaines. Notre compréhension apprend des abstractions utiles qui fusionnent différentes modalités en une représentation conjointe. L'apprentissage multimodal décrit des méthodes qui analysent les phénomènes de différentes modalités et leur interaction afin de s'attaquer à des tâches complexes. Il en résulte des représentations meilleures et plus riches qui améliorent les performances des méthodes d'apprentissage automatique actuelles. Pour développer notre analyse multimodale, nous devons d'abord remédier au manque de données contenant une voix chantée avec des paroles alignées. Ces données sont obligatoires pour développer nos idées. Par conséquent, nous étudierons comment créer une telle base de données en exploitant automatiquement les ressources du World Wide Web. La création de ce type de base de données est un défi en soi qui soulève de nombreuses questions de recherche. Nous travaillons constamment avec le paradoxe classique de la `` poule ou de l'œuf '': l'acquisition et le nettoyage de ces données nécessitent des modèles précis, mais il est difficile de former des modèles sans données. Nous proposons d'utiliser le paradigme enseignant-élève pour développer une méthode où la création de bases de données et l'apprentissage de modèles ne sont pas considérés comme des tâches indépendantes mais plutôt comme des efforts complémentaires. Dans ce processus, les paroles et les annotations non-expertes de karaoké décrivent les paroles comme une séquence de notes alignées sur le temps avec leurs informations textuelles associées. Nous lions ensuite chaque annotation à l'audio correct et alignons globalement les annotations dessus
This dissertation proposes the study of multimodal learning in the context of musical signals. Throughout, we focus on the interaction between audio signals and text information. Among the many text sources related to music that can be used (e.g. reviews, metadata, or social network feedback), we concentrate on lyrics. The singing voice directly connects the audio signal and the text information in a unique way, combining melody and lyrics where a linguistic dimension complements the abstraction of musical instruments. Our study focuses on the audio and lyrics interaction for targeting source separation and informed content estimation. Real-world stimuli are produced by complex phenomena and their constant interaction in various domains. Our understanding learns useful abstractions that fuse different modalities into a joint representation. Multimodal learning describes methods that analyse phenomena from different modalities and their interaction in order to tackle complex tasks. This results in better and richer representations that improve the performance of the current machine learning methods. To develop our multimodal analysis, we need first to address the lack of data containing singing voice with aligned lyrics. This data is mandatory to develop our ideas. Therefore, we investigate how to create such a dataset automatically leveraging resources from the World Wide Web. Creating this type of dataset is a challenge in itself that raises many research questions. We are constantly working with the classic ``chicken or the egg'' problem: acquiring and cleaning this data requires accurate models, but it is difficult to train models without data. We propose to use the teacher-student paradigm to develop a method where dataset creation and model learning are not seen as independent tasks but rather as complementary efforts. In this process, non-expert karaoke time-aligned lyrics and notes describe the lyrics as a sequence of time-aligned notes with their associated textual information. We then link each annotation to the correct audio and globally align the annotations to it. For this purpose, we use the normalized cross-correlation between the voice annotation sequence and the singing voice probability vector automatically, which is obtained using a deep convolutional neural network. Using the collected data we progressively improve that model. Every time we have an improved version, we can in turn correct and enhance the data

17

Harrando, Ismail. "Representation, information extraction, and summarization for automatic multimedia understanding." Electronic Thesis or Diss., Sorbonne université, 2022. http://www.theses.fr/2022SORUS097.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Que ce soit à la télévision ou sur internet, la production de contenu vidéo connaît un essor sans précédent. La vidéo est devenu non seulement le support dominant pour le divertissement, mais elle est également considérée comme l'avenir de l'éducation, l'information et le loisir. Néanmoins, le paradigme traditionnel de la gestion du multimédia s'avère incapable de suivre le rythme imposé par l'ampleur du volume de contenu créé chaque jour sur les différents canaux de distribution. Ainsi, les tâches de routine telles que l'archivage, l'édition, l'organisation et la recherche de contenu par les créateurs multimédias deviennent d'un coût prohibitif. Du côté de l'utilisateur, la quantité de contenu multimédia distribuée quotidiennement peut être écrasante ; le besoin d'un contenu plus court et plus personnalisé n'a jamais été aussi prononcé. Pour faire progresser l'état de l'art sur ces deux fronts, un certain niveau de compréhension du multimédia doit être atteint par nos ordinateurs. Dans cette thèse, nous proposons d'aborder les multiples défis auxquels sont confrontés le traitement et l'analyse automatique de contenu multimédia, en orientant notre exploration autour de trois axes : 1. la représentation: avec toute sa richesse et sa variété, la modélisation et la représentation du contenu multimédia peut être un défi en soi. 2. la description: La composante textuelle du multimédia peut être exploitée pour générer des descripteurs de haut niveau (annotation) pour le contenu en question. 3. le résumé: où nous étudions la possibilité d'extraire les moments d'intérêt de ce contenu, à la fois pour un résumé centré sur la narration et pour maximiser la mémorabilité
Whether on TV or on the internet, video content production is seeing an unprecedented rise. Not only is video the dominant medium for entertainment purposes, but it is also reckoned to be the future of education, information and leisure. Nevertheless, the traditional paradigm for multimedia management proves to be incapable of keeping pace with the scale brought about by the sheer volume of content created every day across the disparate distribution channels. Thus, routine tasks like archiving, editing, content organization and retrieval by multimedia creators become prohibitively costly. On the user side, too, the amount of multimedia content pumped daily can be simply overwhelming; the need for shorter and more personalized content has never been more pronounced. To advance the state of the art on both fronts, a certain level of multimedia understanding has to be achieved by our computers. In this research thesis, we aim to go about the multiple challenges facing automatic media content processing and analysis, mainly gearing our exploration to three axes: 1. Representing multimedia: With all its richness and variety, modeling and representing multimedia content can be a challenge in itself. 2. Describing multimedia: The textual component of multimedia can be capitalized on to generate high-level descriptors, or annotations, for the content at hand. 3. Summarizing multimedia: we investigate the possibility of extracting highlights from media content, both for narrative-focused summarization and for maximising memorability

18

Ouenniche, Kaouther. "Multimodal deep learning for audiovisual production." Electronic Thesis or Diss., Institut polytechnique de Paris, 2023. http://www.theses.fr/2023IPPAS020.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Dans le contexte en constante évolution du contenu audiovisuel, la nécessité cruciale d'automatiser l'indexation et l'organisation des archives s'est imposée comme un objectif primordial. En réponse, cette recherche explore l'utilisation de techniques d'apprentissage profond pour automatiser l'extraction de métadonnées diverses dans les archives, améliorant ainsi leur accessibilité et leur réutilisation. La première contribution de cette recherche concerne la classification des mouvements de caméra. Il s'agit d'un aspect crucial de l'indexation du contenu, car il permet une catégorisation efficace et une récupération du contenu vidéo en fonction de la dynamique visuelle qu'il présente. L'approche proposée utilise des réseaux neuronaux convolutionnels 3D avec des blocs résiduels. Une approche semi-automatique pour la construction d'un ensemble de données fiable sur les mouvements de caméra à partir de vidéos disponibles au public est également présentée, réduisant au minimum le besoin d'intervention manuelle. De plus, la création d'un ensemble de données d'évaluation exigeant, comprenant des vidéos de la vie réelle tournées avec des caméras professionnelles à différentes résolutions, met en évidence la robustesse et la capacité de généralisation de la technique proposée, atteignant un taux de précision moyen de 94 %.La deuxième contribution se concentre sur la tâche de Vidéo Question Answering. Dans ce contexte, notre Framework intègre un Transformers léger et un module de cross modalité. Ce module utilise une corrélation croisée pour permettre un apprentissage réciproque entre les caractéristiques visuelles conditionnées par le texte et les caractéristiques textuelles conditionnées par la vidéo. De plus, un scénario de test adversarial avec des questions reformulées met en évidence la robustesse du modèle et son applicabilité dans le monde réel. Les résultats expérimentaux sur MSVD-QA et MSRVTT-QA, valident la méthodologie proposée, avec une précision moyenne de 45 % et 42 % respectivement. La troisième contribution de cette recherche aborde le problème de vidéo captioning. Le travail introduit intègre un module de modality attention qui capture les relations complexes entre les données visuelles et textuelles à l'aide d'une corrélation croisée. De plus, l'intégration de l'attention temporelle améliore la capacité du modèle à produire des légendes significatives en tenant compte de la dynamique temporelle du contenu vidéo. Notre travail intègre également une tâche auxiliaire utilisant une fonction de perte contrastive, ce qui favorise la généralisation du modèle et une compréhension plus approfondie des relations intermodales et des sémantiques sous-jacentes. L'utilisation d'une architecture de transformer pour l'encodage et le décodage améliore considérablement la capacité du modèle à capturer les interdépendances entre les données textuelles et vidéo. La recherche valide la méthodologie proposée par une évaluation rigoureuse sur MSRVTT, atteignant des scores BLEU4, ROUGE et METEOR de 0,4408, 0,6291 et 0,3082 respectivement. Notre approche surpasse les méthodes de l'état de l'art, avec des gains de performance allant de 1,21 % à 1,52 % pour les trois métriques considérées. En conclusion, ce manuscrit offre une exploration holistique des techniques basées sur l'apprentissage profond pour automatiser l'indexation du contenu télévisuel, en abordant la nature laborieuse et chronophage de l'indexation manuelle. Les contributions englobent la classification des types de mouvements de caméra, la vidéo question answering et la vidéo captioning, faisant avancer collectivement l'état de l'art et fournissant des informations précieuses pour les chercheurs dans le domaine. Ces découvertes ont non seulement des applications pratiques pour la recherche et l'indexation de contenu, mais contribuent également à l'avancement plus large des méthodologies d'apprentissage profond dans le contexte multimodal
Within the dynamic landscape of television content, the critical need to automate the indexing and organization of archives has emerged as a paramount objective. In response, this research explores the use of deep learning techniques to automate the extraction of diverse metadata from television archives, improving their accessibility and reuse.The first contribution of this research revolves around the classification of camera motion types. This is a crucial aspect of content indexing as it allows for efficient categorization and retrieval of video content based on the visual dynamics it exhibits. The novel approach proposed employs 3D convolutional neural networks with residual blocks, a technique inspired by action recognition methods. A semi-automatic approach for constructing a reliable camera motion dataset from publicly available videos is also presented, minimizing the need for manual intervention. Additionally, the creation of a challenging evaluation dataset, comprising real-life videos shot with professional cameras at varying resolutions, underlines the robustness and generalization power of the proposed technique, achieving an average accuracy rate of 94%.The second contribution centers on the demanding task of Video Question Answering. In this context, we explore the effectiveness of attention-based transformers for facilitating grounded multimodal learning. The challenge here lies in bridging the gap between the visual and textual modalities and mitigating the quadratic complexity of transformer models. To address these issues, a novel framework is introduced, which incorporates a lightweight transformer and a cross-modality module. This module leverages cross-correlation to enable reciprocal learning between text-conditioned visual features and video-conditioned textual features. Furthermore, an adversarial testing scenario with rephrased questions highlights the model's robustness and real-world applicability. Experimental results on benchmark datasets, such as MSVD-QA and MSRVTT-QA, validate the proposed methodology, with an average accuracy of 45% and 42%, respectively, which represents notable improvements over existing approaches.The third contribution of this research addresses the multimodal video captioning problem, a critical aspect of content indexing. The introduced framework incorporates a modality-attention module that captures the intricate relationships between visual and textual data using cross-correlation. Moreover, the integration of temporal attention enhances the model's ability to produce meaningful captions, considering the temporal dynamics of video content. Our work also incorporates an auxiliary task employing a contrastive loss function, which promotes model generalization and a deeper understanding of inter-modal relationships and underlying semantics. The utilization of a transformer architecture for encoding and decoding significantly enhances the model's capacity to capture interdependencies between text and video data. The research validates the proposed methodology through rigorous evaluation on the MSRVTT benchmark,viachieving BLEU4, ROUGE, and METEOR scores of 0.4408, 0.6291 and 0.3082, respectively. In comparison to state-of-the-art methods, this approach consistently outperforms, with performance gains ranging from 1.21% to 1.52% across the three metrics considered.In conclusion, this manuscript offers a holistic exploration of deep learning-based techniques to automate television content indexing, addressing the labor-intensive and time-consuming nature of manual indexing. The contributions encompass camera motion type classification, VideoQA, and multimodal video captioning, collectively advancing the state of the art and providing valuable insights for researchers in the field. These findings not only have practical applications for content retrieval and indexing but also contribute to the broader advancement of deep learning methodologies in the multimodal context

19

Francis, Danny. "Représentations sémantiques d'images et de vidéos." Electronic Thesis or Diss., Sorbonne université, 2019. http://www.theses.fr/2019SORUS605.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Des travaux de recherche récents en apprentissage profond ont permis d’améliorer significativement les performances des modèles multimédias : avec la création de grands jeux de données d’images ou de vidéos annotées, les réseaux de neurones profonds ont surpassé les modèles précédemment utilisés dans la plupart des cas. Dans cette thèse, nous avons développé de nouveaux modèles neuronaux profonds permettant de générer des représentations sémantiques d’images et de vidéos. Nous nous sommes intéressés à deux tâches principales : l’appariement d’images ou de vidéos et de textes, et la génération automatique de légendes. La tâche d’appariement peut être réalisée par le biais d’un espace multimodal commun permettant de comparer images ou vidéos et textes. Nous avons pour cela défini deux types de modèles d’appariement en nous inspirant des travaux récents sur les réseaux de capsules. La génération automatique de légendes textuelles est une tâche ardue, puisqu’elle demande à analyser un objet visuel, et à le transcrire en une description en langage naturel. Pour cela, nous proposons deux méthodes d’apprentissage par curriculum. Par ailleurs, nous avons défini une méthode permettant à un modèle de génération de légendes de vidéos de combiner des informations spatiales et temporelles. Des expériences ont permis de prouver l’intérêt de nos propositions par rapport aux travaux existants
Recent research in Deep Learning has sent the quality of results in multimedia tasks rocketing: thanks to new big datasets of annotated images and videos, Deep Neural Networks (DNN) have outperformed other models in most cases. In this thesis, we aim at developing DNN models for automatically deriving semantic representations of images and videos. In particular we focus on two main tasks : vision-text matching and image/video automatic captioning. Addressing the matching task can be done by comparing visual objects and texts in a visual space, a textual space or a multimodal space. Based on recent works on capsule networks, we define two novel models to address the vision-text matching problem: Recurrent Capsule Networks and Gated Recurrent Capsules. In image and video captioning, we have to tackle a challenging task where a visual object has to be analyzed, and translated into a textual description in natural language. For that purpose, we propose two novel curriculum learning methods. Moreover regarding video captioning, analyzing videos requires not only to parse still images, but also to draw correspondences through time. We propose a novel Learned Spatio-Temporal Adaptive Pooling method for video captioning that combines spatial and temporal analysis. Extensive experiments on standard datasets assess the interest of our models and methods with respect to existing works

20

Prévost, Clémence. "Multimodal data fusion by coupled low-rank tensor approximations." Electronic Thesis or Diss., Université de Lorraine, 2021. http://www.theses.fr/2021LORR0180.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Grâce au développement de nouvelles modalités, de plus en plus de signaux sont collectés chaque jour. Ainsi, il est fréquent que différents signaux renferment des informations sur un même phénomène physique. Cependant, un seul signal peut ne contenir que des informations partielles, d’où l’émergence de la fusion de données multimodales pour dépasser cette limitation. La fusion de données est définie comme le traitement conjoint de signaux issus de différentes modalités. Son but est d’exploiter à plein les capacités de chaque modalité à extraire du savoir sur le phénomène d’intérêt, tout en mettant en lumière des informations supplémentaires issues de la fusion. Cependant, dû aux interactions complexes entre les différentes modalités, dresser un tableau des avantages des modèles de fusion et de leurs limites par rapport au traitement séparé est une tâche complexe. Dans certains domaines tels que l’imagerie biomédicale ou la télédétection, les signaux observés sont des cubes de données appelés tenseurs ; ainsi, il est possible d’envisager des modèles de fusion tensorielle. En effet, la modélisation tensorielle de rang faible permet de préserver la structure des observations tout en jouissant des propriétés d’unicité des décompositions de tenseurs. Dans cette thèse, on s’intéresse à un problème de reconstruction d'un tenseur à haute résolution à partir d’observations tensorielles faiblement résolues. En particulier, le problème de super-résolution hyperspectrale (HSR) vise à reconstruire un tenseur à partir de deux versions dégradées : tandis que l’une est faiblement résolue dans deux modes spatiaux, la seconde est faiblement résolue dans le troisième mode spectral. Des approches tensorielles ont été récemment proposées, sous l’hypothèse d’une décomposition tensorielle de rang faible du tenseur à haute résolution. Les premiers travaux à exploiter cette hypothèse se basent sur la décomposition canonique polyadique (CP) et ont donné lieu à de nombreuses méthodes tensorielles de reconstruction, incluant ce travail. La première partie de cette thèse est dédiée au développement d’algorithmes tensoriels pour le problème HSR. Dans le Chapitre 2, nous proposons une reformulation sous forme d’une décomposition de Tucker couplée, ainsi que deux algorithmes analytiques basés sur la décomposition en valeurs singulières d’ordre supérieur. Les simulations illustrent des performances compétitives au regard des méthodes de l'état de l'art, avec un temps de calcul réduit. Le Chapitre 3 utilise un modèle de variabilité spectrale. Le problème de reconstruction est reformulé grâce à une décomposition bloc-termes. Les facteurs de la décomposition sont contraints à être positifs afin de garantir leur interprétabilité physique dans un modèle de mélange. Ainsi, cette approche propose une solution conjointe au problème HSR et au problème de démélange spectral. La seconde partie de cette thèse consiste en l’étude des performances statistiques des modèles tensoriels couplés. Cette partie vise à évaluer l’efficacité de certains algorithmes présentés à la première partie. Dans le Chapitre 4, on considère les bornes de Cramér-Rao sous contraintes (CCRB) pour des modèlesCP couplés. L’expression de la matrice d’information de Fisher est fournie dans deux scénarios, selon que i) l’on considère le problème de reconstruction totalement couplé seulement, ou ii) l’on cherche à comparer les performances des modèles totalement couplé, partiellement couplé et découplé. L’efficacité asymptotique des algorithmes CP existants est également illustrée.Le Chapitre 5 considère un problème d’estimation non-standard dans lequel les contraintes sur les paramètres déterministes du modèle impliquent un paramètre aléatoire. Dans ce contexte, la CCRB standard est non-informative. De fait, on introduit une nouvelle borne de Cramér-Rao sous contraintes aléatoires (RCCRB). Son intérêt est illustré au moyen d’un modèle bloc-termes couplé avec incertitudes
Due to the recent emergence of new modalities, the amount of signals collected daily has been increasing. As a result, it frequently occurs that various signals provide information about the same phenomenon. However, a single signal may only contain partial information about this phenomenon. Multimodal data fusion was proposed to overcome this issue. It is defined as joint processing of datasets acquired from different modalities. The aim of data fusion is to enhance the capabilities of each modality to express their specific information about the phenomenon of interest; it is also expected from data fusion that it brings out additional information that would be ignored by separate processing. However, due to the complex interactions between the modalities, understanding the advantages and limits of data fusion may not be straightforward.In a lot of applications such as biomedical imaging or remote sensing, the observed signals are three-dimensional arrays called tensors, thus tensor-based data fusion can be envisioned. Tensor low-rank modeling preserves the multidimensional structure of the observations and enjoys interesting uniqueness properties arising from tensor decompositions. In this work, we address the problem of recovering a high-resolution tensor from tensor observations with some lower resolutions.In particular, hyperspectral super-resolution (HSR) aims at reconstructing a tensor from two degraded versions. While one is degraded in two (spatial) modes, the second is degraded in the third (spectral) mode. Recently, tensor-based approaches were proposed for solving the problem at hand. These works are based on the assumption that the target tensor admits a given low-rank tensor decomposition. The first work addressing the problem of tensor-based HSR was based on a coupled canonical polyadic (CP) decomposition of the observations. This approach gave rise to numerous following reconstruction methods based on coupled tensor models, including our work.The first part of this thesis is devoted to the design of tensor-based algorithms for solving the HSR problem. In Chapter 2, we propose to formulate the problem as a coupled Tucker decomposition. We introduce two simple but fast algorithms based on the higher-order singular value decomposition of the observations. Our experiments show that our algorithms have a competitive performance with state-of-the-art tensor and matrix methods, with a lower computational time. In Chapter 3, we consider spectral variability between the observations. We formulate the reconstruction problem as a coupled block-term decomposition. We impose non-negativity of the low-rank factors, so that they can be incorporated into a physically-informed mixing model. Thus the proposed approach provides a solution to the joint HSR and unmixing problems.The second part of this thesis adresses the performance analysis of the coupled tensor models. The aim of this part is to assess the efficiency of some algorithms introduced in the first part. In Chapter 4, we consider constrained Cramér-Rao lower bounds (CCRB) for coupled tensor CP models. We provide a closed-form expression for the constrained Fisher information matrix in two scenarios, whether i) we only consider the fully-coupled reconstruction problem or ii) if we are interested in comparing the performance of fully-coupled, partially-coupled and uncoupled approaches. We prove that the existing CP-based algorithms are asymptotically efficient. Chapter 5 addresses a non-standard estimation problem in which the constraints on the deterministic model parameters involve a random parameter. We show that in this case, the standard CCRB is a non-informative bound. As a result, we introduce a new randomly constrained Cramér-Rao bound (RCCRB). The relevance of the RCCRB is illustrated using a coupled block-term decomposition model accounting for random uncertainties

21

Haegelen, Claire. "Construction et validation d'une base de données multimodales pour la stimulation cérébrale profonde." Phd thesis, Université Rennes 1, 2014. http://tel.archives-ouvertes.fr/tel-01073108.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

La stimulation cérébrale profonde est un traitement efficace pour traiter les symptômes parkinsoniens chez les patients en échappement thérapeutique médical. L'intervention chirurgicale consiste à positionner au millimètre près une électrode de stimulation dans un noyau cérébral profond. La qualité du ciblage peut être améliorée par des bases de données multimodales, à la fois anatomiques, cliniques et électrophysiologiques. En premier lieu, nous avons créé une IRM moyennée appelée template Parkinson, puis nous avons validé la segmentation des 24 structures cérébrales profondes du template. Dans un deuxième temps, nous nous sommes intéressés à la meilleure localisation du plot stimulé dans le noyau subthalamique (NST) en étudiant les résultats moteur et neuropsychologiques de 30 patients parkinsoniens stimulés dans le NST. Pour chaque score clinique, nous avons obtenu un atlas anatomo-clinique, associant le degré d'amélioration ou de dégradation du patient avec son plot stimulé. Nous avons constaté une discordance entre la meilleure amélioration motrice et l'inévitable dégradation des fluences en stimulant dans la région postéro-supérieure du NST. Dans un troisième temps, nous avons développé des cartes statistiques anatomo-cliniques pour visualiser les conséquences motrices et neuropsychologiques à 6 mois d'une stimulation du pallidum médial (GPm) chez 20 patients parkinsoniens. Les patients étaient tous améliorés sur le plan moteur sans altération neuropsychologique. La zone où la majorité des patients étaient améliorés sur le plan moteur, était la partie postéro-ventrale du GPm, un peu plus latéralement que les données de la littérature. Notre but est d'utiliser les cartes statistiques de manière prospective chez d'autres patients à opérer, pour raccourcir le temps de ciblage pré-chirurgical le jour de l'intervention et pour améliorer le résultat postopératoire, tant sur le plan moteur que neuropsychologique.

22

Haegelen, Claire. "Construction et validation d’une base de données multimodales pour la stimulation cérébrale profonde." Thesis, Rennes 1, 2014. http://www.theses.fr/2014REN1B003/document.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

La stimulation cérébrale profonde est un traitement efficace pour traiter les symptômes parkinsoniens chez les patients en échappement thérapeutique médical. L’intervention chirurgicale consiste à positionner au millimètre près une électrode de stimulation dans un noyau cérébral profond. La qualité du ciblage peut être améliorée par des bases de données multimodales, à la fois anatomiques, cliniques et électrophysiologiques. En premier lieu, nous avons créé une IRM moyennée appelée template Parkinson, puis nous avons validé la segmentation des 24 structures cérébrales profondes du template. Dans un deuxième temps, nous nous sommes intéressés à la meilleure localisation du plot stimulé dans le noyau subthalamique (NST) en étudiant les résultats moteur et neuropsychologiques de 30 patients parkinsoniens stimulés dans le NST. Pour chaque score clinique, nous avons obtenu un atlas anatomo-clinique, associant le degré d’amélioration ou de dégradation du patient avec son plot stimulé. Nous avons constaté une discordance entre la meilleure amélioration motrice et l’inévitable dégradation des fluences en stimulant dans la région postéro-supérieure du NST. Dans un troisième temps, nous avons développé des cartes statistiques anatomo-cliniques pour visualiser les conséquences motrices et neuropsychologiques à 6 mois d’une stimulation du pallidum médial (GPm) chez 20 patients parkinsoniens. Les patients étaient tous améliorés sur le plan moteur sans altération neuropsychologique. La zone où la majorité des patients étaient améliorés sur le plan moteur, était la partie postéro-ventrale du GPm, un peu plus latéralement que les données de la littérature. Notre but est d’utiliser les cartes statistiques de manière prospective chez d’autres patients à opérer, pour raccourcir le temps de ciblage pré-chirurgical le jour de l’intervention et pour améliorer le résultat postopératoire, tant sur le plan moteur que neuropsychologique
Deep brain stimulation (DBS) is an effective treatment for patients with severe disabled Parkinson’s disease refractory to medical treatments. DBS surgery consists of the accurate implantation of an electrode in a deep brain nucleus. The quality of the surgical planning can be improved by developing a multimodal database based on anatomical, clinical and electrophysiologial data. The first step was to develop a specific magnetic resonance imaging (MRI) template of Parkinson’s disease patients’ anatomy, and to validate the segmentation of the 24 deep brain structures made on this template. Secondly, we focused on identifying optimum sites for subthalamic nucleus (STN) stimulation by studying symptomatic motor improvement along with neuropsychological side effects in 30 patients with PD. Each clinical score produced one anatomo-clinical atlas, associating the degree of improvement or worsening of the patient with its active contacts.We showed a discrepancy between a good motor improvement and an invevitable deterioration of the fluencies by targeting the postero-superior region of the STN. Finally, we developed new statistical anatomo-clinical maps the better to visualize the motor and neuropsychological consequences at 6 months of GPm stimulation in 20 patients with PD. These maps provided us with the motor improvement of GPm stimulation without cognitive impairments. We also proposed a new more lateral targeting of the GPm in PD because of the cortico-subcortical atrophy induced by the disease. Our goal is to use these statistical maps prospectively in further patients to improve their targeting, thus ensuring a shorter planning step on the day of the surgery as well as better outcomes from motor and neuropsychological point of view

23

Anzid, Hanan. "Fusion de données multimodales par combinaison de l’incertain et de modèles de perception." Thesis, Bourgogne Franche-Comté, 2019. http://www.theses.fr/2019UBFCK046.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

L’idée générale consiste à utiliser conjointement des informations multiples hétérogènes portant sur le même problème entachées d’imperfections et provenant de plusieurs sources afin d’améliorer la connaissance d’une situation donnée. La visualisation adaptée des images pour l’aide à la prise de décision en utilisant les informations perceptuelles porté par les cartes de saillance
The general idea is to use together heterogeneous multiple information on the same problem tainted by imperfections and coming from several sources in order to improve the knowledge of a given situation. Appropriate visualization of the images to aid in decision making using the perceptual information carried by the salience maps

24

Hafsi, Meriem. "Géo-détection des réseaux enterrés par fusion de données multimodales et raisonnement spatial." Thesis, Université Grenoble Alpes (ComUE), 2018. http://www.theses.fr/2018GREAA024/document.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Nos travaux de recherche ont pour objectif de résoudre le problème de la géodétection des réseaux enterrés. Plusieurs méthodes sont utilisées actuellement mais présentent des limites dues à la nature du sol, aux matériaux des canalisations et au produit transporté. Notre objectif est de proposer une nouvelle approche basée sur la fusion de quatre méthodes de détection et sur la récolte de plusieurs informations qui seront représentées sous forme de connaissances et permettront de raisonner à différents niveaux d’abstraction, pour détecter avec un niveau de confiance, les canalisations enterrées indépendamment de leur matériau, du produit qu’elles transportent et du sol dans lequel elles sont enterrées
Our work aims to solve the problem of reliable detection of underground networks by optimization of the existing methods. Four methods are planned to identify the underground pipelines but they have limits and depend on many factors. Our investigation aims to solve the problem of reliable detection of underground networks by aggregation of the existing methods and reasoning at different abstraction levels. For that purpose, we must be able to provide an accurate geo-detection of underground networks regardless of their material, their function or the soil in which they are buried. The information collected in the field or soil by these detection methods will be merged in order to achieve and obtain an accurate and reliable single result of geo-detection. For that, we need to check independently these distinct methods and then to aggregate the information/data they provide. Besides, the first step will consists of the representation of this information into symbolic knowledge. The second step is to overcome the limitations of current methods to provide a reliable and expressive reasoning system

25

Abdat, Faiza. "Reconnaissance automatique des émotions par données multimodales : expressions faciales et des signaux physiologiques." Thesis, Metz, 2010. http://www.theses.fr/2010METZ035S/document.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Cette thèse présente une méthode générique de reconnaissance automatique des émotions à partir d’un système bimodal basé sur les expressions faciales et les signaux physiologiques. Cette approche de traitement des données conduit à une extraction d’information de meilleure qualité et plus fiable que celle obtenue à partir d’une seule modalité. L’algorithme de reconnaissance des expressions faciales qui est proposé, s’appuie sur la variation de distances des muscles faciaux par rapport à l’état neutre et sur une classification par les séparateurs à vastes marges (SVM). La reconnaissance des émotions à partir des signaux physiologiques est, quant à elle, basée sur la classification des paramètres statistiques par le même classifieur. Afin d’avoir un système de reconnaissance plus fiable, nous avons combiné les expressions faciales et les signaux physiologiques. La combinaison directe de telles informations n’est pas triviale étant donné les différences de caractéristiques (fréquence, amplitude de variation, dimensionnalité). Pour y remédier, nous avons fusionné les informations selon différents niveaux d’application. Au niveau de la fusion des caractéristiques, nous avons testé l’approche par l’information mutuelle pour la sélection des plus pertinentes et l’analyse en composantes principales pour la réduction de leur dimensionnalité. Au niveau de la fusion de décisions, nous avons implémenté une méthode basée sur le processus de vote et une autre basée sur les réseaux Bayésien dynamiques. Les meilleurs résultats ont été obtenus avec la fusion des caractéristiques en se basant sur l’Analyse en Composantes Principales. Ces méthodes ont été testées sur une base de données conçue dans notre laboratoire à partir de sujets sains et de l’inducteur par images IAPS. Une étape d’auto évaluation a été demandée à tous les sujets dans le but d’améliorer l’annotation des images d’induction utilisées. Les résultats ainsi obtenus mettent en lumière leurs bonnes performances et notamment la variabilité entre les individus et la variabilité de l’état émotionnel durant plusieurs jours
This thesis presents a generic method for automatic recognition of emotions from a bimodal system based on facial expressions and physiological signals. This data processing approach leads to better extraction of information and is more reliable than single modality. The proposed algorithm for facial expression recognition is based on the distance variation of facial muscles from the neutral state and on the classification by means of Support Vector Machines (SVM). And the emotion recognition from physiological signals is based on the classification of statistical parameters by the same classifier. In order to have a more reliable recognition system, we have combined the facial expressions and physiological signals. The direct combination of such information is not trivial giving the differences of characteristics (such as frequency, amplitude, variation, and dimensionality). To remedy this, we have merged the information at different levels of implementation. At feature-level fusion, we have tested the mutual information approach for selecting the most relevant and principal component analysis to reduce their dimensionality. For decision-level fusion we have implemented two methods; the first based on voting process and another based on dynamic Bayesian networks. The optimal results were obtained with the fusion of features based on Principal Component Analysis. These methods have been tested on a database developed in our laboratory from healthy subjects and inducing with IAPS pictures. A self-assessment step has been applied to all subjects in order to improve the annotation of images used for induction. The obtained results have shown good performance even in presence of variability among individuals and the emotional state variability for several days

26

Abdat, Faiza. "Reconnaissance automatique des émotions par données multimodales : expressions faciales et des signaux physiologiques." Electronic Thesis or Diss., Metz, 2010. http://www.theses.fr/2010METZ035S.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Cette thèse présente une méthode générique de reconnaissance automatique des émotions à partir d’un système bimodal basé sur les expressions faciales et les signaux physiologiques. Cette approche de traitement des données conduit à une extraction d’information de meilleure qualité et plus fiable que celle obtenue à partir d’une seule modalité. L’algorithme de reconnaissance des expressions faciales qui est proposé, s’appuie sur la variation de distances des muscles faciaux par rapport à l’état neutre et sur une classification par les séparateurs à vastes marges (SVM). La reconnaissance des émotions à partir des signaux physiologiques est, quant à elle, basée sur la classification des paramètres statistiques par le même classifieur. Afin d’avoir un système de reconnaissance plus fiable, nous avons combiné les expressions faciales et les signaux physiologiques. La combinaison directe de telles informations n’est pas triviale étant donné les différences de caractéristiques (fréquence, amplitude de variation, dimensionnalité). Pour y remédier, nous avons fusionné les informations selon différents niveaux d’application. Au niveau de la fusion des caractéristiques, nous avons testé l’approche par l’information mutuelle pour la sélection des plus pertinentes et l’analyse en composantes principales pour la réduction de leur dimensionnalité. Au niveau de la fusion de décisions, nous avons implémenté une méthode basée sur le processus de vote et une autre basée sur les réseaux Bayésien dynamiques. Les meilleurs résultats ont été obtenus avec la fusion des caractéristiques en se basant sur l’Analyse en Composantes Principales. Ces méthodes ont été testées sur une base de données conçue dans notre laboratoire à partir de sujets sains et de l’inducteur par images IAPS. Une étape d’auto évaluation a été demandée à tous les sujets dans le but d’améliorer l’annotation des images d’induction utilisées. Les résultats ainsi obtenus mettent en lumière leurs bonnes performances et notamment la variabilité entre les individus et la variabilité de l’état émotionnel durant plusieurs jours
This thesis presents a generic method for automatic recognition of emotions from a bimodal system based on facial expressions and physiological signals. This data processing approach leads to better extraction of information and is more reliable than single modality. The proposed algorithm for facial expression recognition is based on the distance variation of facial muscles from the neutral state and on the classification by means of Support Vector Machines (SVM). And the emotion recognition from physiological signals is based on the classification of statistical parameters by the same classifier. In order to have a more reliable recognition system, we have combined the facial expressions and physiological signals. The direct combination of such information is not trivial giving the differences of characteristics (such as frequency, amplitude, variation, and dimensionality). To remedy this, we have merged the information at different levels of implementation. At feature-level fusion, we have tested the mutual information approach for selecting the most relevant and principal component analysis to reduce their dimensionality. For decision-level fusion we have implemented two methods; the first based on voting process and another based on dynamic Bayesian networks. The optimal results were obtained with the fusion of features based on Principal Component Analysis. These methods have been tested on a database developed in our laboratory from healthy subjects and inducing with IAPS pictures. A self-assessment step has been applied to all subjects in order to improve the annotation of images used for induction. The obtained results have shown good performance even in presence of variability among individuals and the emotional state variability for several days

27

Tochon, Guillaume. "Analyse hiérarchique d'images multimodales." Thesis, Université Grenoble Alpes (ComUE), 2015. http://www.theses.fr/2015GREAT100/document.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Il y a un intérêt grandissant pour le développement d’outils de traitements adaptés aux images multimodales (plusieurs images de la même scène acquises avec différentes caractéristiques). Permettant une représentation plus complète de la scène, ces images multimodales ont de l'intérêt dans plusieurs domaines du traitement d'images, mais les exploiter et les manipuler de manière optimale soulève plusieurs questions. Cette thèse étend les représentations hiérarchiques, outil puissant pour le traitement et l’analyse d’images classiques, aux images multimodales afin de mieux exploiter l’information additionnelle apportée par la multimodalité et améliorer les techniques classiques de traitement d’images. Cette thèse se concentre sur trois différentes multimodalités fréquemment rencontrées dans le domaine de la télédétection. Nous examinons premièrement l’information spectrale-spatiale des images hyperspectrales. Une construction et un traitement adaptés de la représentation hiérarchique nous permettent de produire une carte de segmentation de l'image optimale vis-à-vis de l'opération de démélange spectrale. Nous nous concentrons ensuite sur la multimodalité temporelle, traitant des séquences d’images hyperspectrales. En utilisant les représentations hiérarchiques des différentes images de la séquence, nous proposons une nouvelle méthode pour effectuer du suivi d’objet et l’appliquons au suivi de nuages de gaz chimique dans des séquences d’images hyperspectrales dans le domaine thermique infrarouge. Finalement, nous étudions la multimodalité sensorielle, c’est-à-dire les images acquises par différents capteurs. Nous appuyant sur le concept des tresses de partitions, nous proposons une nouvelle méthodologie de segmentation se basant sur un cadre de minimisation d’énergie
There is a growing interest in the development of adapted processing tools for multimodal images (several images acquired over the same scene with different characteristics). Allowing a more complete description of the scene, multimodal images are of interest in various image processing fields, but their optimal handling and exploitation raise several issues. This thesis extends hierarchical representations, a powerful tool for classical image analysis and processing, to multimodal images in order to better exploit the additional information brought by the multimodality and improve classical image processing techniques. %when applied to real applications. This thesis focuses on three different multimodalities frequently encountered in the remote sensing field. We first investigate the spectral-spatial information of hyperspectral images. Based on an adapted construction and processing of the hierarchical representation, we derive a segmentation which is optimal with respect to the spectral unmixing operation. We then focus on the temporal multimodality and sequences of hyperspectral images. Using the hierarchical representation of the frames in the sequence, we propose a new method to achieve object tracking and apply it to chemical gas plume tracking in thermal infrared hyperspectral video sequences. Finally, we study the sensorial multimodality, being images acquired with different sensors. Relying on the concept of braids of partitions, we propose a novel methodology of image segmentation, based on an energetic minimization framework

28

Muliukov, Artem. "Étude croisée des cartes auto-organisatrices et des réseaux de neurones profonds pour l'apprentissage multimodal inspiré du cerveau." Electronic Thesis or Diss., Université Côte d'Azur, 2024. https://intranet-theses.unice.fr/2024COAZ4008.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

La plasticité corticale est l'une des principales caractéristiques qui permettent à notre capacité d'apprendre et de s'adapter à notre environnement. En effet, le cortex cérébral a la capacité de s'auto-organiser à travers deux formes distinctes de plasticité: la plasticité structurelle et la plasticité synaptique. Ces mécanismes sont très probablement à la base d'une caractéristique extrêmement intéressante du développement du cerveau humain: l'association multimodale. Le cerveau utilise des corrélations spatio-temporelles entre plusieurs modalités pour structurer les données et créer du sens à partir des observations. De plus, les observations biologiques montrent qu'une modalité peut activer la représentation interne d'une autre modalité lorsque les deux sont corrélées. Pour modéliser un tel comportement, Edelman et Damasio ont proposé respectivement les cadres Reentry et Convergence Divergence Zone où les communications neuronales bidirectionnelles peuvent conduire à la fois à la fusion multimodale (convergence) et à l'activation intermodale (divergence). Néanmoins, ces frameworks ne fournissent pas de modèle de calcul au niveau neuronal, et seuls quelques travaux abordent cette question d'association multimodale bio-inspirée qui est pourtant nécessaire pour une représentation complète de l'environnement notamment en ciblant des systèmes intelligents autonomes et embarqués. Dans ce projet de doctorat, nous proposons de poursuivre l'exploration de modèles informatiques d'auto-organisation inspirés du cerveau pour l'apprentissage multimodal non supervisé dans les systèmes neuromorphiques. Ces architectures neuromorphes tirent leur efficacité énergétique des modèles bio-inspirés qu'elles supportent, et pour cette raison nous ne considérons dans notre travail que des règles d'apprentissage basées sur des traitements locaux et distribués
Cortical plasticity is one of the main features that enable our capability to learn and adapt in our environment. Indeed, the cerebral cortex has the ability to self-organize itself through two distinct forms of plasticity: the structural plasticity and the synaptic plasticity. These mechanisms are very likely at the basis of an extremely interesting characteristic of the human brain development: the multimodal association. The brain uses spatio-temporal correlations between several modalities to structure the data and create sense from observations. Moreover, biological observations show that one modality can activate the internal representation of another modality when both are correlated. To model such a behavior, Edelman and Damasio proposed respectively the Reentry and the Convergence Divergence Zone frameworks where bi-directional neural communications can lead to both multimodal fusion (convergence) and inter-modal activation (divergence). Nevertheless, these frameworks do not provide a computational model at the neuron level, and only few works tackle this issue of bio-inspired multimodal association which is yet necessary for a complete representation of the environment especially when targeting autonomous and embedded intelligent systems. In this doctoral project, we propose to pursue the exploration of brain-inspired computational models of self-organization for multimodal unsupervised learning in neuromorphic systems. These neuromorphic architectures get their energy-efficient from the bio-inspired models they support, and for that reason we only consider in our work learning rules based on local and distributed processing

29

Leroy, Philippe. "Traitement des données en pharmacocinétique." Paris 5, 1988. http://www.theses.fr/1988PA05P177.

Full text

APA, Harvard, Vancouver, ISO, and other styles

30

Bosc, Marcel. "Contribution à la détection de changements dans des séquences IRM 3D multimodales." Phd thesis, Université Louis Pasteur - Strasbourg I, 2003. http://tel.archives-ouvertes.fr/tel-00005163.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

L'imagerie médicale a profondément influencé à la fois la recherche médicale et la pratique clinique. Elle est aujourd'hui incontournable aussi bien pour l'établissement du diagnostic que pour la mise en place et le suivi d'un traitement thérapeutique. Elle fournit un volume croissant de données tridimensionnelles provenant de modalités d'acquisition différentes (IRM, scanner-X, médecine nucléaire, échographie). Ce volume croissant de données rend délicate et laborieuse la tâche d'interprétation par un expert. Le traitement d'images est un outil permettant une automatisation des tâches et va assister l'expert aussi bien dans l'analyse qualitative que quantitative des images. Dans ce mémoire, nous proposons des techniques automatiques de détection de changements dans des séquences d'images IRM cérébrales. Nous nous intéressons plus particulièrement aux changements d'intensité localisés survenant lors d'évolutions pathologiques telles que les évolutions de lésions en sclérose en plaques (SEP). Les applications médicales des techniques développées ici sont nombreuses: aide au diagnostic, suivi à long terme de l'évolution d'une pathologie, évaluation de l'efficacité thérapeutique d'un médicament, aide à la prise de décision en vue d'une intervention chirurgicale. Ce travail de recherche a été mené en étroite collaboration entre le LSIIT (ULP/UMR CNRS 7005) et l'Institut de Physique Biologique (ULP-Hôpitaux Universitaires / UMR CNRS 7004), au sein de l'équipe-projet multi-laboratoires "Imagerie et Robotique Médicale et Chirurgicale" (EPML IRMC). Il a été soutenu par la Ligue Française Contre la Sclérose En Plaques (LFSEP), la société SERONO et la région Alsace. La détection automatique et fiable de changements interimages rencontre d'importantes difficultés rendant impossible la comparaison directe d'images acquises successivement. La position des patients dans l'imageur n'est jamais identique et les paramètres d'acquisition peuvent varier sensiblement entre chaque examen, entraînant, entre autres, des modifications de contraste. La définition même de ce qui doit être détecté est souvent subjective. Dans le cadre spécifique de la détection de changements d'intensité de lésions, des déformations globales de structures anatomiques, telle que l'atrophie cérébrale, peuvent également perturber la comparaison directe des images. Le travail présenté dans cette thèse est centré sur le développement d'outils de traitement d'images permettant de décider quels changements sont statistiquement significatifs ou non. Lorsque l'expert détermine visuellement des changements, il utilise des connaissances a priori, implicites, de haut niveau qui lui permettent de corriger certaines erreurs d'acquisition. Ainsi, il peut compenser visuellement des erreurs de repositionnement et utiliser ses connaissances anatomiques propres pour identifier et rejeter certains artefacts. Nous développons donc ici, des techniques automatiques d'identification et de correction des principaux artefacts (positionnement, déformations, variations d'intensité ...) et nous proposons une technique originale de segmentation du cortex, apportant les informations anatomiques permettant l'amélioration de la détection automatique. Les techniques de traitement d'images proposées ici ont été développées pour l'IRM cérébrale. Cependant, elles sont suffisamment générales pour s'appliquer à d'autres domaines. Notre système de détection de changements a été évalué dans le cadre de l'étude de l'évolution de lésions de sclérose en plaques. Ses performances ont été déterminées sur une grande base d'images multimodales (plus de 200 images FLAIR, RARE et GE3D) de taille $128^3$. L'évaluation a été faite à l'aide d'un protocole impliquant deux experts (neurologues) et utilisant une analyse statistique de type COR Le système automatique a été jugé plus performant que l'expert humain. Dans la première partie de ce manuscrit, nous présentons tout d'abord les éléments d'imagerie IRM et les aspects médicaux nécessaires à la compréhension de l'ensemble de ce travail. Nous décrivons les modalités d'acquisition IRM et les artefacts associés. Cette étape est importante pour la compréhension des imperfections pouvant apparaître et leur correction. Nous présentons ensuite des éléments sur l'anatomie cérébrale et nous décrivons l'apparence prise les différentes structures cérébrales dans les trois modalités IRM considérées. Puis, nous terminons par les pathologies cérébrales, leurs évolutions, et leur aspect en IRM. Les objectifs et les limites de notre approche sont situés par rapport à ce contexte applicatif. Dans une deuxième partie nous décrivons une approche nouvelle de segmentation sous-voxel. Pour décider de la pertinence d'un changement observé, l'expert utilise des connaissances anatomiques. Dans notre système de détection automatique, ces connaissances sont obtenues en segmentant l'image du cerveau. La méthode de segmentation proposée est basée sur l'évolution d'une image de labels de très haute résolution. L'évolution se fait sous l'influence de contraintes statistiques multiples, exprimées dans un cadre de minimisation d'énergie. L'évolution de l'image de labels n'ayant lieu qu'à la frontière entre régions, notre approche est comparable à un système d'évolution de surfaces. Afin de s'adapter aux spécificités de chaque région cérébrale, les contraintes sont paramétrées à l'aide d'un atlas. Celui-ci, composé d'une image de référence et d'images de paramètres, est plaqué sur l'image à segmenter à l'aide d'un recalage déformable multi-échelles. Les contraintes sont classées en deux catégories: les contraintes image (attache aux données) et le modèle a priori. Plusieurs contraintes image, opérant simultanément à des échelles différentes, sont employées. Elles utilisent une description rigoureuse du processus d'acquisition, permettant ainsi d'atteindre à la fois une précision sous-voxel et une convergence globale (à grande échelle). Le modèle a priori est également composé de plusieurs contraintes : une contrainte de distribution relative qui donne la probabilité d'observer un label à une distance donnée d'un autre label et une contrainte d'épaisseur. Notre approche permet d'obtenir une segmentation de haute résolution à partir d'images IRM pouvant être de résolution inférieure. La performance du système de segmentation a été évaluée sur des images simulées et testée sur des images réelles. La troisième partie présente l'ensemble de la chaîne de traitements conduisant à la détection de changements, ainsi que le protocole d'évaluation et les résultats. La chaîne de traitements est constituée d'une première étape de repositionnement et de correction des déformations. Toutes les images de la base sont alignées sur des références soigneusement choisies, d'abord à l'aide d'une méthode de recalage affine itératif robuste, puis à l'aide de recalage déformable. Au cours de la deuxième étape, les deux images à comparer subissent une correction d'intensité non-linéaire ainsi qu'une élimination d'erreurs résiduelles. La méthode de correction d'intensité que nous proposons permet d'établir une fonction de transfert d'intensité non-linéaire en optimisant un critère simple s'appuyant sur des informations de l'histogramme conjoint. Finalement, au cours de la dernière étape, une approche de détection statistique multimodale permet de décider quels changements sont significatifs. Les connaissances anatomiques fournies par la segmentation sont utilisées pour éliminer certaines détections aberrantes. L'ensemble de ces traitements est appliqué de manière entièrement automatique sur une base de plus de 200 images, de modalités différentes, démontrant ainsi la fiabilité des traitements. La validation du système a été menée à l'aide d'un protocole d'évaluation comprenant deux experts (neurologues). Le premier expert ainsi que le système automatique ont procédé indépendamment à un même travail de détection (l'expert opérant manuellement). Le second expert fait ensuite office d'arbitre pour comparer les résultats des deux procédés. L'analyse COR permet une vue synthétique de la performance du détecteur en donnant la probabilité de détection en fonction du nombre de fausses alarmes. Dans un cadre applicatif, les modifications détectées par le système automatique sont ordonnées par vraisemblance décroissante et présentées au neurologue dans un système de visualisation interactif. Ceci permet au médecin de conserver la décision finale, tout en parcourant efficacement et très rapidement les modifications détectées. En annexe nous proposons quelques réflexions sur l'importance du développement logiciel et de sa diffusion dans la recherche en traitement d'images. Nous présentons ensuite ImLib3D, une librairie C++ dédiée à la recherche en traitement d'images volumiques, que nous avons développée dans le cadre de cette recherche. ImLib3D propose à la fois un système de visualisation séparé et une librairie soigneusement conçue à l'aide d'une méthodologie orientée objet et utilisant des concepts modernes s'inspirant de la librairie standard du C++. L'objectif, dans la conception, a été de créer une librairie simple à utiliser par le chercheur, considéré comme le public cible. ImLib3D est distribuée librement (Open Source) et est placée dans un cadre de développement distribué coopératif (sourceforge.net). En conclusion, nous avons élaboré un système complet et opérationnel de détection de changements dans lequel nous avons systématiquement analysé et traité les principaux artefacts gênant la détection.

31

Lecomte, Gwenaële. "Analyse d'images radioscopiques et fusion d'informations multimodales pour l'amélioration du contrôle de pièces de fonderie." Lyon, INSA, 2005. http://theses.insa-lyon.fr/publication/2005ISAL0128/these.pdf.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Dans le cadre d'un projet du 5ème PCRD Européen, une machine de contrôle non destructif a été développée pour des pièces de fonderie, combinant trois techniques : la radioscopie, la spectrométrie et la vibration. Nous présentons dans ce rapport de thèse le traitement des images radioscopiques, utilisant le filtre morphologique du chapeau haut de forme et le seuillage par hysteresis. Des caractéristiques sont extraites automatiquement des objets détectés pour les classer en fausse alarme ou en défaut. L'analyse des caractéristiques est réalisée avec l'étude des courbes ROC. Un indice de confiance est calculé à partir de trois caractéristiques. Il donne une bonne performance de classification entre défaut et fausse alarme pour les 684 images analysées. La fusion des trois modalités de contrôle se déroule en trois étapes successives, entre les images radioscopiques, puis avec la spectrométrie, et enfin avec l'analyse vibratoire. La théorie de Dempster-Shafer a été choisie pour la fusion afin de modéliser la part de doute liée aux informations. Nous présentons la méthodologie de calcul des jeux de masses pour les 3 étapes successives de fusion : au niveau local pour chaque objet détecté dans les images radioscopiques, puis pour les volumes de mesures en spectrométrie, puis au niveau global de la pièce pour le contrôle vibratoire. La cadre de discernement est adapté à chaque étape de fusion. Les résultats obtenus montrent l'intérêt de la fusion des images radioscopiques entre elles qui augmente la part de confiance attachée à chaque défaut détecté. Les autres modalités de contrôle demandent à être améliorées pour que la fusion soit intéressante. Les premiers résultats montrent un manque de fiabilité de ces deux modalités
In the frame of the 5th european PCRD, a non destructive control machine was developed to control casting samples by merging three techniques : radioscopy, spectrometry and vibration. We present in this report the image processing based on the top hat morphological and the hysteresis filters. Features are automatically extracted to classified detected objects as defect or false alarm. A confidence defect index is calculated with three features and gives good classification performance for the 684 analysed images. Thanks to the explicit geometric model developed for the X rays control system, the detected objects are matched with objects from the three others images, taken with other sample orientations. The three non destructive techniques are fused with the Dempster-Shafer theory, which takes into account the information ignorance. The fusion is done in three steps : first between radioscopic detected objects, secondly between radioscopic and spectrometric objets and to finish at the sample level with the vibration analysis. For each control, the confidence level estimations are presented, respectively at the detected objet level, at the control volume level and at the sample level. The frame of decision is adapted for each step. Results show that the fusion of radioscopic detected objets together increases the defect hypothese confidence. The spectrometry and vibration techniques must be improved to supply reliable information

32

Lecomte, Gwenaële Babot Daniel Kaftandjian Valérie. "Analyse d'images radioscopiques et fusion d'informations multimodales pour l'amélioration du contrôle de pièces de fonderie." Villeurbanne : Doc'INSA, 2006. http://docinsa.insa-lyon.fr/these/pont.php?id=lecomte.

Full text

APA, Harvard, Vancouver, ISO, and other styles

33

Medjahed, Hamid. "Identification de situation de détresse par la fusion de données multimodales pour la télévigilance médicale à domicile." Phd thesis, Institut National des Télécommunications, 2010. http://tel.archives-ouvertes.fr/tel-00541876.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Aujourd'hui, la proportion des personnes âgées devient importante par rapport à l'ensemble de la population, et les capacités d'admission dans les hôpitaux sont limitées. En conséquence, plusieurs systèmes de télévigilance médicale ont été développés, mais il existe peu de solutions commerciales. Ces systèmes se concentrent soit sur la mise en oeuvre d'une architecture générique pour l'intégration des systèmes d'information médicale, soit sur l'amélioration de la vie quotidienne des patients en utilisant divers dispositifs automatiques avec alarme, soit sur l'offre de services de soins aux patients souffrant de certaines maladies comme l'asthme, le diabète, les problèmes cardiaques ou pulmonaires, ou la maladie d'Alzheimer. Dans ce contexte, un système automatique pour la télévigilance médicale à domicile est une solution pour faire face à ces problèmes et ainsi permettre aux personnes âgées de vivre en toute sécurité et en toute indépendance à leur domicile. Dans cette thèse, qui s'inscrit dans le cadre de la télévigilance médicale, un nouveau système de télévigilance médicale à plusieurs modalités nommé EMUTEM (Environnement Multimodale pour la Télévigilance Médicale) est présenté. Il combine et synchronise plusieurs modalités ou capteurs, grâce à une technique de fusion de données multimodale basée sur la logique floue. Ce système peut assurer une surveillance continue de la santé des personnes âgées. L'originalité de ce système avec la nouvelle approche de fusion est sa flexibilité à combiner plusieurs modalités de télévigilance médicale. Il offre un grand bénéfice aux personnes âgées en surveillant en permanence leur état de santé et en détectant d'éventuelles situations de détresse.

34

Xu, Hao. "Estimation statistique d'atlas probabiliste avec les données multimodales et son application à la segmentation basée sur l'atlas." Phd thesis, Ecole Polytechnique X, 2014. http://pastel.archives-ouvertes.fr/pastel-00969176.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Les atlases d'anatomie informatisé jouent un rôle important dans l'analyse d'images médicales. Cependant un atlas se réfère généralement à une image standard ou une moyenne d'image aussi appelé template, qui probablement représente bien d'une population observée, il ne suffit pas pour caractériser la population observée en détail. Un template doit être apprises conjointement avec la variabilité géométrique des formes représentées dans les observations. Ces deux quantités seront par la suite former l'atlas de la population correspondante. La variabilité géométrique est modélisée comme des déformations du template de sorte qu'il s'adapte aux observations. Dans la première partie du travail, nous fournissons un nouveau modèle statistique générative basée sur des templates déformables denses qui représente plusieurs types de tissus observés dans les images médicales. Notre atlas contient à la fois une estimation des templates probabiliste de chaque tissu (appelée classes) et la métrique de déformation. Nous utilisons un algorithme stochastique pour l'estimation de l'atlas probabilistes donné un ensemble de données. Cet atlas est ensuite utilisé pour la méthode de segmentation basée sur l'atlas pour segmenter les nouvelles images. Expériences sont montrées sur les images T1 du cerveau. Les analyses traditionnelles d'imagerie de résonance magnétique fonctionnelle utilisent peu d'informations anatomies. Le recalage des images vers un template est basé sur l'anatomie individuelle et ne tient pas compte des informations fonctionnelles, donc les activations détectées ne se limitent pas à la matière grise. Dans la deuxième partie du travail, on propose un modèle statistique pour estimer un atlas probabiliste de l'IRM fonctionnelle et T1 qui résume à la fois des informations anatomies et fonctionnelles et la variabilité géométrique de la population. Le recalage et la segmentation sont effectuées conjointement pendant l'estimation de l'atlas et l'activité fonctionnelle est limitée à la matière grise, augmenter la précision de l'atlas. Inférer l'abondance des protéines de l'intensité de peptides est l'étape clé dans la protéomique quantitative. La conclusion est nécessairement plus précis quand de nombreux peptides sont pris en compte pour une protéine donnée. Pourtant, l'information apportée par les peptides partagées par différentes protéines est souvent jeté. Dans la troisième partie du travail, nous proposons un système statistique basée sur une modèle hiérarchique à inclure cette information. Notre méthodologie, basée sur une analyse simultanée de tous les peptides quantifiés, gère les erreurs biologiques et techniques ainsi que l'effet des peptides. En outre, nous proposons une mise en œuvre pratique adapté à l'analyse de grandes bases de données. Par rapport à une méthode basée sur l'analyse d'une protéine à la fois (ce qui ne comprend pas les peptides partagés), notre méthodologie s'est révélée être beaucoup plus fiable pour estimer l'abondance de protéines et de tester les changements d'abondance.

35

Merroun, Omar. "Traitement à grand échelle des données symboliques." Paris 9, 2011. http://www.theses.fr/2011PA090027.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Les méthodes de l’Analyse de Données (AD) classiques ont été généralisées dans l’Analyse de Données Symboliques (ADS) en prenant en charge les données complexes (intervalles, ensembles, histogrammes, etc. ). Ces méthodes expriment des operations de haut niveau et sont très complexes. Le modèle de l’ADS, qui est implanté dans le logiciel SODAS2, ne supporte pas le traitement de volumes importants de données symboliques. Conformément à la démarche classique en modélisation et traitement de masses de données, nous proposons un nouveau modèle de données pour représenter les données symboliques et les manipuler avec des opérateurs algébriques minimaux et clos par composition. Nous donnons aussi des exemples de requêtes pour montrer l’expressivité de ce modèle. Nous avons implanté ce modèle algébrique, nommé LS-SODAS, et définit un langage, nommé XSDQL, pour formuler des requêtes afin de manipuler les données symboliques. Nous réalisons deux études de cas qui illustrent d’une part l’expressivité de ce langage et la capacité à traiter des volumes de données importants
Symbolic Data Analysis (SDA) proposes a generalization of classical Data Analysis (AD) methods using complex data (intervals, sets, histograms). These methods define high level and complex operators for symbolic data manipulation. Furthermore, recent implementations of the SDA model are not able to process large data volumes. According to the classical design of massive data computation, we define a new data model to represent and process symbolic data using algebraic operators that are minimal and closed by composition. We give some query samples to emphasize the expressiveness of our model. We implement this algebraic model, called LS-SODAS, and we define the language XSDQL to express queries for symbolic data manipulation. Two cases of study are provided in order to show the potential of XSDQL langage expressiveness and the data processing scalability

36

Touati, Mustafa. "Contribution géostatistique au traitement des données sismiques." Paris, ENMP, 1996. http://www.theses.fr/1996ENMP0617.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Comment concilier un determinisme impose par des lois physiques avec un alea du a la complexite de la nature ?. Cette question, classique en sciences de la terre, est d'actualite chez les geophysiciens. La presente these tente d'y repondre en deux etapes. D'abord en linearisant les equations de propagation des ondes en milieux perturbes, ensuite en faisant appel a des techniques classiques de la geostatistique. Cette methodologie permet d'envisager: d'une part l'inversion de parametres statistiques du champ de vitesses a partir des temps d'arrivee, d'autre part la simulation des erreurs de migration lors de la localisation d'un reflecteur. Ces methodes sont validees sur des donnees synthetiques

37

Dujardin, Bénédicte. "Approximation rationnelle appliquée au traitement de données." Nice, 2005. http://www.theses.fr/2005NICE4106.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Nous abordons dans ce document divers problèmes relevant des mathématiques et du traitement de données dont le point commun est de faire intervenir des polynômes à coefficients aléatoires, dont l’étude compose exclusivement la matière du premier chapitre. En analyse spectrale, l’utilisation de modèles paramétriques linéaires d’un signal conduit à des estimateurs rationnels de sa densité spectrale de puissance. Nous nous intéressons aux estimateurs AR et ARMA de certains processus stochastiques et caractérisons leurs performances en terme de statistique de leurs pôles et zéros complexes. Notre compréhension du rôle tenu par la composante aléatoire du signal est facilitée par une partie préliminaire consacrée aux approximants rationnels de Padé de séries formelles perturbées aléatoirement. Cette première partie est pour nous l’occasion de mettre en évidence certains problèmes récurrents liés à la perturbation tels que l’appariement des pôles et des zéros ou la formation de structures cristallines
In this document, we are concerned with different problems arising from mathematics and date processing whose common point is to involve polynomials with random coefficients, the study of which composes exclusively the material of the first chapter. In spectral analysis, the use of linear parametric models of a signal leads to rational estimators of its power spectrum density. We are interested in the AR and ARMA estimators of certain stochastic processes and characterize their performance in terms of the statistics of their complex poles and zeros. Our understanding of the role played by the random component of the signal is made easier by a preliminary part devoted to rational Padé approximants of randomly perturbed formal series. This first part provides us with the opportunity to underline some recurring phenomena related to the perturbation such as the matching of poles and zeros or the formation of crystal structures

38

Franchi, Gianni. "Machine learning spatial appliquée aux images multivariées et multimodales." Thesis, Paris Sciences et Lettres (ComUE), 2016. http://www.theses.fr/2016PSLEM071/document.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Cette thèse porte sur la statistique spatiale multivariée et l’apprentissage appliqués aux images hyperspectrales et multimodales. Les thèmes suivants sont abordés :Fusion d'images :Le microscope électronique à balayage (MEB) permet d'acquérir des images à partir d'un échantillon donné en utilisant différentes modalités. Le but de ces études est d'analyser l’intérêt de la fusion de l'information pour améliorer les images acquises par MEB. Nous avons mis en œuvre différentes techniques de fusion de l'information des images, basées en particulier sur la théorie de la régression spatiale. Ces solutions ont été testées sur quelques jeux de données réelles et simulées.Classification spatiale des pixels d’images multivariées :Nous avons proposé une nouvelle approche pour la classification de pixels d’images multi/hyper-spectrales. Le but de cette technique est de représenter et de décrire de façon efficace les caractéristiques spatiales / spectrales de ces images. Ces descripteurs multi-échelle profond visent à représenter le contenu de l'image tout en tenant compte des invariances liées à la texture et à ses transformations géométriques.Réduction spatiale de dimensionnalité :Nous proposons une technique pour extraire l'espace des fonctions en utilisant l'analyse en composante morphologiques. Ainsi, pour ajouter de l'information spatiale et structurelle, nous avons utilisé les opérateurs de morphologie mathématique
This thesis focuses on multivariate spatial statistics and machine learning applied to hyperspectral and multimodal and images in remote sensing and scanning electron microscopy (SEM). In this thesis the following topics are considered:Fusion of images:SEM allows us to acquire images from a given sample using different modalities. The purpose of these studies is to analyze the interest of fusion of information to improve the multimodal SEM images acquisition. We have modeled and implemented various techniques of image fusion of information, based in particular on spatial regression theory. They have been assessed on various datasets.Spatial classification of multivariate image pixels:We have proposed a novel approach for pixel classification in multi/hyper-spectral images. The aim of this technique is to represent and efficiently describe the spatial/spectral features of multivariate images. These multi-scale deep descriptors aim at representing the content of the image while considering invariances related to the texture and to its geometric transformations.Spatial dimensionality reduction:We have developed a technique to extract a feature space using morphological principal component analysis. Indeed, in order to take into account the spatial and structural information we used mathematical morphology operators

39

Courtial, Nicolas. "Fusion d’images multimodales pour l’assistance de procédures d’électrophysiologie cardiaque." Thesis, Rennes 1, 2020. http://www.theses.fr/2020REN1S015.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Les procédures d’électrophysiologie cardiaque ont démontré leur efficacité pour la suppression de symptômes d’arythmie et d’insuffisance cardiaque. Leur taux de succès dépend de la bonne connaissance de l’état du cœur du patient, en termes de conductivité électrique, de qualité tissulaire, et de propriétés mécaniques. Cette intégration d’informations est un enjeu clinique majeur pour ces thérapies. Cette thèse porte sur le développement et l’exploitation de modèles multimodaux spécifiques au patient, pour la planification et l’assistance de l’ablation par radiofréquences (ARF) et de la thérapie de resynchronisation cardiaque (CRT). Des méthodes de segmentation, de recalage et de fusion d’informations multimodales ont dans un premier temps été établies pour la création de ces modèles, permettant de planifier ces procédures. Puis, des approches spécifiques à chacune ont été mises en œuvre pour intégrer ces modèles dans le bloc opératoire, pour assister le geste clinique. Enfin, une analyse postopératoire a permis la synthèse d’un nouveau descripteur multimodal, visant à prédire la réponse de la CRT suivant le site choisi de stimulation du ventricule gauche. Ces études ont été appliquées et validées pour des patients candidats à la CRT et à l’ARF. Elles ont montré la faisabilité et l’intérêt d’intégrer ces modèles multimodaux dans le workflow clinique pour l’assistance à ces gestes interventionnels
Cardiac electrophysiology procedures have been proved to be efficient to suppress arrythmia and heart failure symptoms. Their success rate depends on patient’s heart condition’s knowledge, including electrical and mechanical functions and tissular quality. It is a major clinical concern for these therapies. This work focuses on the development of specific patient multimodal model to plan and assist radio-frequency ablation (RFA) and cardiac resynchronization therapy (CRT). First, segmentation, registration and fusion methods have been developped to create these models, allowing to plan these interventional procedures. For each therapy, specific means of integration within surgical room have been established, for assistance purposes. Finally, a new multimodal descriptor has been synthesized during a post-procedure analysis, aiming to predict the CRT’s response depending on the left ventricular stimulation site. These studies have been applied and validated on patients candidate to CRT and ARF. They showed the feasibility and interest of integrating such multimodal models in the clinical workflow to assist these procedures

40

Desseroit, Marie-Charlotte. "Caractérisation et exploitation de l'hétérogénéité intra-tumorale des images multimodales TDM et TEP." Thesis, Brest, 2016. http://www.theses.fr/2016BRES0129/document.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

L’imagerie multi-modale Tomographie par émission de positons (TEP)/ Tomodensitométrie(TDM) est la modalité d’imagerie la plus utilisée pour le diagnostic et le suivi des patients en oncologie. Les images obtenues par cette méthode offrent une cartographie à la fois de la densité des tissus (modalité TDM) mais également une information sur l’activité métabolique des lésions tumorales (modalité TEP). L’analyse plus approfondie de ces images acquises en routine clinique a permis d’extraire des informations supplémentaires quant à la survie du patient ou à la réponse au(x) traitement(s). Toutes ces nouvelles données permettent de décrire le phénotype d’une lésion de façon non invasive et sont regroupées sous le terme de Radiomics. Cependant, le nombre de paramètres caractérisant la forme ou la texture des lésions n’a cessé d’augmenter ces dernières années et ces données peuvent être sensibles à la méthode d’extraction ou encore à la modalité d’imagerie employée. Pour ces travaux de thèse, la variabilité de ces caractéristiques a donc été évaluée sur les images TDM et TEP à l’aide d’une cohorte test-retest : pour chaque patient, deux examens effectués dans les mêmes conditions, espacés d’un intervalle de l’ordre de quelques jours sont disponibles. Les métriques reconnues comme fiables à la suite de cette analyse sont exploitées pour l’étude de la survie des patients dans le cadre du cancer du poumon. La construction d’un modèle pronostique à l’aide de ces métriques a permis, dans un premier temps, d’étudier la complémentarité des informations fournies par les deux modalités. Ce nomogramme a cependant été généré par simple addition des facteurs de risque. Dans un second temps, les mêmes données ont été exploitées afin de construire un modèle pronostique à l’aide d’une méthode d’apprentissage reconnue comme robuste : les machines à vecteurs de support ou SVM (support vector machine). Les modèles ainsi générés ont ensuite été testés sur une cohorte prospective en cours de recrutement afin d’obtenir des résultats préliminaires sur la robustesse de ces nomogrammes
Positron emission tomography (PET) / Computed tomography (CT) multi-modality imaging is the most commonly used imaging technique to diagnose and monitor patients in oncology. PET/CT images provide a global tissue density description (CT images) and a characterization of tumor metabolic activity (PET images). Further analysis of those images acquired in clinical routine supplied additional data as regards patient survival or treatment response. All those new data allow to describe the tumor phenotype and are generally grouped under the generic name of Radiomics. Nevertheless, the number of shape descriptors and texture features characterising tumors have significantly increased in recent years and those parameters can be sensitive to exctraction method or whether to imaging modality. During this thesis, parameters variability, computed on PET and CT images, was assessed thanks to a test-retest cohort : for each patient, two groups of PET/CT images, acquired under the same conditions but generated with an interval of few minutes, were available. Parameters classified as reliable after this analysis were exploited for survival analysis of patients in the context of non-small cell lug cancer (NSCLC).The construction of a prognostic model with those metrics permitted first to study the complementarity of PET and CT texture features. However, this nomogram has been generated by simply adding risk factors and not with a robust multi-parametric analysis method. In the second part, the same data were exploited to build a prognostic model using support vector machine (SVM) algorithm. The models thus generated were then tested on a prospective cohort currently being recruited to obtain preliminary results as regards the robustness of those nomograms

41

Fliti, Tamim. "Le problème SAT : traitement dynamique et données minimales." Aix-Marseille 2, 1997. http://www.theses.fr/1997AIX22015.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Le present memoire se compose de deux parties consacrees, l'une aux traitements dynamique de donnees aleatoires du probleme de satisfaisabilite sat, l'autre a l'etude sur les systemes minimaux (et inconsistants) smi en forme normale conjonctive. Dans la premiere partie nous incluons, d'une part, une methode de recherche dynamique sur plusieurs niveaux a la procedure de davis et putnam visant a valuer les meilleures variables qui produisent un plus petit arbre de calcul apres k-niveaux de recherche. Les experimentations des variantes ainsi obtenues, pour k = 2 sur des donnees 3-sat aleatoires, donnent un meilleur nombre de nuds de l'arbre de calcul, ce nombre compense le temps necessaire a la recherche des variables fournissant un plus petit arbre apres deux niveaux de recherche. D'autre part, nous essayons d'isoler l'intervalle (c/v)#i#n#f,(c/v)#s#u#p hors duquel la correspondance experimentale c/v probabilite de satisfaisabilite des donnees est constante par morceaux ; en faisant une etude sur les donnees k-sat de format (c,v), dans la zone d'entropie maximale plus particulierement. Dans la seconde partie, nous etudions divers algorithmes pour engendrer des smi de facon aleatoire, en vue notamment d'estimer les nombres n(v) de smi a v variables apparentes. Nous donnons le nombre minimum des clauses d'une donnee smi et nous construisons de smi 3-sat ayant un nombre de clauses polynomial en le nombre v des variables apparentes, plus particulierement un exemple de smi 3-sat qui n'a pas moins de v#3/(48(log v)#3) clauses

42

Baby, Jean-François. "Le traitement des données spatialisées par stations geomatiques." Aix-Marseille 2, 1991. http://www.theses.fr/1991AIX23005.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

L'apparition puis la generalisation, ces dix dernieres annees, de la micro-informatique, rendent possible une ecriture graphique renouvelee du territoire. En meme temps l'augmentation du nombre de bases de donnees et la plus grande facilite d'acces a l'information demandent une nouvelle approche methodologique et permettent la diffusion d'une nouvelle information geographique. A travers deux experiences, la realisation d'une bvase de donnees urbaines de la commune de nice et l'elaboration d'un systeme d'observation economique local a la chambre de commerce et d'industrie nice-cote-d'azur, nous avons decrit la mise en oeuvre pragmatique d'une chaine complete du traitement de l'information spatiale : acquisition, traitement, et diffusion de message geographique. Ces realisations ont confirme la necessite d'un couple materiel logiciel specifique, dont nous decrivons les differentes composantes et que nous appelons station geomatique, mais surtout elles ont montre que le travail du geographe devait etre celui du "savoir-structurer" l'information pour mieux comprendre le monde, et mieux l'expliquer
The development of up-to-date computer aids now enable us to write down a new territorial geography, just as the increasing development in data banks offer new prospects in diffusing geographical messages our approach was pragmatic. We tried to put into practice a new method to process spatial data to our first experiment with the town planning department at the town hal in nice, involved establishing a cartographical data bank. Our second experiment is a larger department scale and is being carried at the cci nice-cote-d'azur both experiments have provided confirmation of our choice in "geomatic" computer aids, but furthemore to have the necessary tools in hans, and thesefore a complete step-by-step range of our data, from acquisition to distribution, is of primary importance

43

Macina, Abdoul. "Traitement de requêtes SPARQL sur des données liées." Thesis, Université Côte d'Azur (ComUE), 2018. http://www.theses.fr/2018AZUR4230/document.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

De plus en plus de sources de données liées sont publiées à travers le Web en s'appuyant sur les technologies du Web sémantique, formant ainsi un large réseau de données distribuées. Cependant il est difficile pour les consommateurs de données de profiter de la richesse de ces données, compte tenu de leur distribution, de l'augmentation de leur volume et de l'autonomie des sources de données. Les moteurs fédérateurs de données permettent d'interroger ces sources de données en utilisant des techniques de traitement de requêtes distribuées. Cependant, une mise en œuvre naïve de ces techniques peut générer un nombre considérable de requêtes distantes et de nombreux résultats intermédiaires entraînant ainsi un long temps de traitement des requêtes et des communications réseau coûteuse. Par ailleurs, la sémantique des requêtes distribuées est souvent ignorée. L'expressivité des requêtes, le partitionnement des données et leur réplication sont d'autres défis auxquels doivent faire face les moteurs de requêtes. Pour répondre à ces défis, nous avons d'abord proposé une sémantique des requêtes distribuées compatible avec les standards SPARQL et RDF qui préserve l’expressivité de SPARQL. Nous avons ensuite présenté plusieurs stratégies d'optimisation pour un moteur de requêtes fédérées qui interroge de manière transparente des sources de données distribuées. La performance de ces optimisations est évaluée sur une implémentation d’un moteur de requêtes distribuées SPARQL
Driven by the Semantic Web standards, an increasing number of RDF data sources are published and connected over the Web by data providers, leading to a large distributed linked data network. However, exploiting the wealth of these data sources is very challenging for data consumers considering the data distribution, their volume growth and data sources autonomy. In the Linked Data context, federation engines allow querying these distributed data sources by relying on Distributed Query Processing (DQP) techniques. Nevertheless, a naive implementation of the DQP approach may generate a tremendous number of remote requests towards data sources and numerous intermediate results, thus leading to costly network communications. Furthermore, the distributed query semantics is often overlooked. Query expressiveness, data partitioning, and data replication are other challenges to be taken into account. To address these challenges, we first proposed in this thesis a SPARQL and RDF compliant Distributed Query Processing semantics which preserves the SPARQL language expressiveness. Afterwards, we presented several strategies for a federated query engine that transparently addresses distributed data sources, while managing data partitioning, query results completeness, data replication, and query processing performance. We implemented and evaluated our approach and optimization strategies in a federated query engine to prove their effectiveness

44

Barhoumi, Mohamed Adel. "Traitement des données manquantes dans les données de panel : cas des variables dépendantes dichotomiques." Thesis, Université Laval, 2006. http://www.theses.ulaval.ca/2006/23619/23619.pdf.

Full text

APA, Harvard, Vancouver, ISO, and other styles

45

Buchholz, Bert. "Abstraction et traitement de masses de données 3D animées." Phd thesis, Télécom ParisTech, 2012. http://pastel.archives-ouvertes.fr/pastel-00958339.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Dans cette thèse, nous explorons des structures intermédiaires ainsi que le rapport entre eux et des algorithmes utilisés dans le contexte du rendu photoréaliste (RP) et non photoréaliste (RNP). Nous présentons des nouvelles structures pour le rendu et l'utilisation alternative des structures existantes. Nous présentons trois contributions principales dans les domaines RP et RNP: Nous montrons une méthode pour la génération des images stylisées noir et blanc. Notre approche est inspirée par des bandes dessinées, utilisant l'apparence et la géometrie dans une formulation d'énérgie basée sur un graphe 2D. En contrôlant les énérgies, l'utilisateur peut générer des images de differents styles et représentations. Dans le deuxième travail, nous proposons une nouvelle méthode pour la paramétrisation temporellement cohérente des lignes animées pour la texturisation. Nous introduisons une structure spatiotemporelle et une formulation d'énérgie permettant une paramétrisation globalement optimale. La formulation par une énérgie donne un contrôle important et simple sur le résultat. Finalement, nous présentons une extension sur une méthode de l'illumination globale (PBGI) utilisée dans la production de films au cours des dernières années. Notre extension effectue une compression par quantification de données générées par l'algorithme original. Le coût ni de memoire ni de temps excède considérablement celui de la méthode d'origin et permet ainsi le rendu des scènes plus grande. L'utilisateur a un contrôle facile du facteur et de la qualité de compression. Nous proposons un nombre d'extensions ainsi que des augmentations potentielles pour les méthodes présentées.

46

Buchholz, Bert. "Abstraction et traitement de masses de données 3D animées." Electronic Thesis or Diss., Paris, ENST, 2012. http://www.theses.fr/2012ENST0080.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Dans cette thèse, nous explorons des structures intermédiaires ainsi que le rapport entre eux et des algorithmes utilisés dans le contexte du rendu photoréaliste (RP) et non photoréaliste (RNP). Nous présentons des nouvelles structures pour le rendu et l'utilisation alternative des structures existantes. Nous présentons trois contributions principales dans les domaines RP et RNP: Nous montrons une méthode pour la génération des images stylisées noir et blanc. Notre approche est inspirée par des bandes dessinées, utilisant l'apparence et la géometrie dans une formulation d'énérgie basée sur un graphe 2D. En contrôlant les énérgies, l'utilisateur peut générer des images de differents styles et représentations. Dans le deuxième travail, nous proposons une nouvelle méthode pour la paramétrisation temporellement cohérente des lignes animées pour la texturisation. Nous introduisons une structure spatiotemporelle et une formulation d'énérgie permettant une paramétrisation globalement optimale. La formulation par une énérgie donne un contrôle important et simple sur le résultat. Finalement, nous présentons une extension sur une méthode de l'illumination globale (PBGI) utilisée dans la production de films au cours des dernières années. Notre extension effectue une compression par quantification de données générées par l'algorithme original. Le coût ni de memoire ni de temps excède considérablement celui de la méthode d'origin et permet ainsi le rendu des scènes plus grande. L'utilisateur a un contrôle facile du facteur et de la qualité de compression. Nous proposons un nombre d'extensions ainsi que des augmentations potentielles pour les méthodes présentées
In this thesis, we explore intermediary structures and their relationship to the employed algorithms in the context of photorealistic (PR) and non-photorealistic (NPR) rendering. We present new structures for rendering as well as new uses for existing structures. We present three original contributions in the NPR and PR domain: First, we present binary shading, a method to generate stylized black and white images, inspired by comic artists, using appearance and geometry in a graph-based energy formulation. The user can control the algorithm to generate images of different styles and representations. The second work allows the temporally coherent parameterization of line animations for texturing purposes. We introduce a spatio-temporal structure over the input data and an energy formulation for a globally optimal parameterization. Similar to the work on binary shading, the energy formulation provides a an important and simple control over the output. Finally, we present an extension to Point-based Global Illumination, a method used extensively in movie production during the last years. Our work allows compressing the data generated by the original algorithm using quantification. It is memory-efficient and has only a neglegible time overhead while enabling the rendering of larger scenes. The user can easily control the strength and quality of the compression. We also propose a number of possible extensions and improvements to the methods presented in the thesis

47

Neumann, Markus. "Automatic multimodal real-time tracking for image plane alignment in interventional Magnetic Resonance Imaging." Phd thesis, Université de Strasbourg, 2014. http://tel.archives-ouvertes.fr/tel-01038023.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Interventional magnetic resonance imaging (MRI) aims at performing minimally invasive percutaneous interventions, such as tumor ablations and biopsies, under MRI guidance. During such interventions, the acquired MR image planes are typically aligned to the surgical instrument (needle) axis and to surrounding anatomical structures of interest in order to efficiently monitor the advancement in real-time of the instrument inside the patient's body. Object tracking inside the MRI is expected to facilitate and accelerate MR-guided interventions by allowing to automatically align the image planes to the surgical instrument. In this PhD thesis, an image-based workflow is proposed and refined for automatic image plane alignment. An automatic tracking workflow was developed, performing detection and tracking of a passive marker directly in clinical real-time images. This tracking workflow is designed for fully automated image plane alignment, with minimization of tracking-dedicated time. Its main drawback is its inherent dependence on the slow clinical MRI update rate. First, the addition of motion estimation and prediction with a Kalman filter was investigated and improved the workflow tracking performance. Second, a complementary optical sensor was used for multi-sensor tracking in order to decouple the tracking update rate from the MR image acquisition rate. Performance of the workflow was evaluated with both computer simulations and experiments using an MR compatible testbed. Results show a high robustness of the multi-sensor tracking approach for dynamic image plane alignment, due to the combination of the individual strengths of each sensor.

48

Vielzeuf, Valentin. "Apprentissage neuronal profond pour l'analyse de contenus multimodaux et temporels." Thesis, Normandie, 2019. http://www.theses.fr/2019NORMC229/document.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Notre perception est par nature multimodale, i.e. fait appel à plusieurs de nos sens. Pour résoudre certaines tâches, il est donc pertinent d’utiliser différentes modalités, telles que le son ou l’image.Cette thèse s’intéresse à cette notion dans le cadre de l’apprentissage neuronal profond. Pour cela, elle cherche à répondre à une problématique en particulier : comment fusionner les différentes modalités au sein d’un réseau de neurones ?Nous proposons tout d’abord d’étudier un problème d’application concret : la reconnaissance automatique des émotions dans des contenus audio-visuels.Cela nous conduit à différentes considérations concernant la modélisation des émotions et plus particulièrement des expressions faciales. Nous proposons ainsi une analyse des représentations de l’expression faciale apprises par un réseau de neurones profonds.De plus, cela permet d’observer que chaque problème multimodal semble nécessiter l’utilisation d’une stratégie de fusion différente.C’est pourquoi nous proposons et validons ensuite deux méthodes pour obtenir automatiquement une architecture neuronale de fusion efficace pour un problème multimodal donné, la première se basant sur un modèle central de fusion et ayant pour visée de conserver une certaine interprétation de la stratégie de fusion adoptée, tandis que la seconde adapte une méthode de recherche d'architecture neuronale au cas de la fusion, explorant un plus grand nombre de stratégies et atteignant ainsi de meilleures performances.Enfin, nous nous intéressons à une vision multimodale du transfert de connaissances. En effet, nous détaillons une méthode non traditionnelle pour effectuer un transfert de connaissances à partir de plusieurs sources, i.e. plusieurs modèles pré-entraînés. Pour cela, une représentation neuronale plus générale est obtenue à partir d’un modèle unique, qui rassemble la connaissance contenue dans les modèles pré-entraînés et conduit à des performances à l'état de l'art sur une variété de tâches d'analyse de visages
Our perception is by nature multimodal, i.e. it appeals to many of our senses. To solve certain tasks, it is therefore relevant to use different modalities, such as sound or image.This thesis focuses on this notion in the context of deep learning. For this, it seeks to answer a particular problem: how to merge the different modalities within a deep neural network?We first propose to study a problem of concrete application: the automatic recognition of emotion in audio-visual contents.This leads us to different considerations concerning the modeling of emotions and more particularly of facial expressions. We thus propose an analysis of representations of facial expression learned by a deep neural network.In addition, we observe that each multimodal problem appears to require the use of a different merge strategy.This is why we propose and validate two methods to automatically obtain an efficient fusion neural architecture for a given multimodal problem, the first one being based on a central fusion network and aimed at preserving an easy interpretation of the adopted fusion strategy. While the second adapts a method of neural architecture search in the case of multimodal fusion, exploring a greater number of strategies and therefore achieving better performance.Finally, we are interested in a multimodal view of knowledge transfer. Indeed, we detail a non-traditional method to transfer knowledge from several sources, i.e. from several pre-trained models. For that, a more general neural representation is obtained from a single model, which brings together the knowledge contained in the pre-trained models and leads to state-of-the-art performances on a variety of facial analysis tasks

49

Moreau, Frédérique. "Méthodes de traitement de données géophysiques par transformée en ondelettes." Phd thesis, Université Rennes 1, 1995. http://tel.archives-ouvertes.fr/tel-00656040.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Cette thèse concerne le développement de nouvelles méthodes de traitement et d'interprétation de données de champs de potentiel. Dans un premier temps, nous avons élaboré un algorithme rapide de débruitage de données géophysiques par transformée en ondelettes orthogonales. La méthode proposée permet de tenir compte des non-stationnarités du rapport signal/bruit. Elle est basée sur quelques tests statistiques qui permettent de séparer les coefficients d'ondelettes dus au signal de ceux dus au bruit. Le signal est alors reconstruit par transformée inverse sur les coefficients conservés. L'idée directrice de la deuxième méthode est d'effectuer une imagerie structurale du soussol à partir d'un champ mesuré en surface. Nous avons d'abord intégré la théorie du potentiel dans la théorie des ondelettes, par l'intermédiaire de l'homogénéité des champs dus à des sources multipolaires. L'introduction d'ondelettes définies à partir du noyau de Poisson permet alors de déterminer précisément la localisation et le degré d'homogénéité des sources présentes. L'utilisation des lignes d'extréma de la transformée rend la méthode robuste vis-à-vis du bruit. Nous avons ensuite généralisé la méthode au cas des sources étendues, ce qui nous permet de localiser et de caractériser des bords d'objets. L'inclinaison des structures peut être déterminée par l'utilisation d'ondelettes complexes. En dernier lieu, cette formulation du problème inverse nous a permis de développer une méthode de filtrage par critères structuraux (type et profondeurs des sources). Nous donnons quelques exemples d'applications sur des données gravimétriques. Les possibilités de la méthode sont illustrées sur des zones de fractures ou de subduction.

50

Gu, Co Weila Vila. "Méthodes statistiques et informatiques pour le traitement des données manquantes." Phd thesis, Conservatoire national des arts et metiers - CNAM, 1997. http://tel.archives-ouvertes.fr/tel-00808585.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Cette thèse est consacrée au traitement des données manquantes. Des méthodes descriptives (analyse en composantes principales, analyse des correspondances dont analyse homogène et la classification automatique) sont étudiées dans le cadre des données incomplètes. La seconde partie est consacrée à des problèmes de fusion de fichiers et analyses homogène y est introduite.

Dissertations / Theses on the topic 'Traitement des données multimodales'

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles