To see the other types of publications on this topic, follow the link: Segmentation Multimodale.

Dissertations / Theses on the topic 'Segmentation Multimodale'

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the top 50 dissertations / theses for your research on the topic 'Segmentation Multimodale.'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Browse dissertations / theses on a wide variety of disciplines and organise your bibliography correctly.

1

Bricq, Stéphanie. "Segmentation d’images IRM anatomiques par inférence bayésienne multimodale et détection de lésions." Université Louis Pasteur (Strasbourg) (1971-2008), 2008. https://publication-theses.unistra.fr/public/theses_doctorat/2008/BRICQ_Stephanie_2008.pdf.

Full text
Abstract:
L'imagerie médicale fournit un nombre croissant de données. La segmentation automatique est devenue une étape fondamentale pour l'analyse quantitative de ces images dans de nombreuses pathologies cérébrales comme la sclérose en plaques (SEP). Nous avons focalisé notre étude sur la segmentation d'IRM cérébrales. Nous avons d'abord proposé une méthode de segmentation des tissus cérébraux basée sur le modèle des chaînes de Markov cachées, permettant d'inclure l'information a priori apportée par un atlas probabiliste et prenant en compte les principaux artefacts présents sur les images IRM. Nous avons ensuite étendu cette méthode à la détection de lésions SEP grâce à un estimateur robuste. Nous avons également développé une méthode de segmentation d'IRM 3D basée sur les contours actifs statistiques pour raffiner la segmentation des lésions. Les résultats obtenus ont été comparés avec d'autres méthodes de segmentation et avec des segmentations manuelles réalisées par des médecins
Medical imaging provides a growing number of data. Automatic segmentation has become a fundamental step for quantitative analysis of these images in many brain diseases such as multiple sclerosis (MS). We focused our study on brain MRI segmentation and MS lesion detection. At first we proposed a method of brain tissue segmentation based on hidden Markov chains taking into account neighbourhood information. This method can also include prior information provided by a probabilistic atlas and takes into account the artefacts appearing on MR images. Then we extended this method to detect MS lesions thanks to a robust estimator and prior information provided by a probabilistic atlas. We have also developed a 3D MRI segmentation method based on statistical active contours to refine the lesion segmentation. The results were compared with other existing methods of segmentation, and with manual expert segmentations
APA, Harvard, Vancouver, ISO, and other styles
2

Bricq, Stéphanie Collet Christophe Armspach Jean-Paul. "Segmentation d'images IRM anatomiques par inférence bayésienne multimodale et détection de lésions." Strasbourg : Université de Strasbourg, 2009. http://eprints-scd-ulp.u-strasbg.fr:8080/1143/01/BRICQ_Stephanie_2008-protege.pdf.

Full text
APA, Harvard, Vancouver, ISO, and other styles
3

Toulouse, Tom. "Estimation par stéréovision multimodale de caractéristiques géométriques d’un feu de végétation en propagation." Thesis, Corte, 2015. http://www.theses.fr/2015CORT0009/document.

Full text
Abstract:
Les travaux menés dans cette thèse concernent le développement d'un dispositif de vision permettant l'estimation de caractéristiques géométriques d'un feu de végétation en propagation. Ce dispositif est composé de plusieurs systèmes de stéréovision multimodaux générant des paires d'images stéréoscopiques à partir desquelles des points tridimensionnels sont calculés et les caractéristiques géométriques de feu tels que sa position, vitesse, hauteur, profondeur, inclinaison, surface et volume sont estimées. La première contribution importante de cette thèse est la détection de pixels de feu de végétation. Tous les algorithmes de détection de pixels de feu de la littérature ainsi que ceux développés dans le cadre de cette thèse ont été évalués sur une base de 500 images de feux de végétation acquises dans le domaine du visible et caractérisées en fonction des propriétés du feu dans l'image (couleur, fumée, luminosité). Cinq algorithmes de détection de pixels de feu de végétation basés sur la fusion de données issues d'images acquises dans le domaine du visible et du proche-infrarouge ont également été développés et évalués sur une autre base de données composée de 100 images multimodales caractérisées. La deuxième contribution importante de cette thèse concerne l'utilisation de méthodes de fusion d'images pour l'optimisation des points appariés entre les images multimodales stéréoscopiques.La troisième contribution importante de cette thèse est l'estimation des caractéristiques géométriques de feu à partir de points tridimensionnels obtenus depuis plusieurs paires d'images stéréoscopiques et recalés à l'aide de relevés GPS et d'inclinaison de tous les dispositifs de vision.Le dispositif d'estimation de caractéristiques géométriques à partir de systèmes de stéréovision a été évalué sur des objets rigides de dimensions connues et a permis d'obtenir les informations souhaitées avec une bonne précision. Les résultats des données obtenues pour des feux de végétation en propagation sont aussi présentés
This thesis presents the geometrical characteristics measurement of spreading vegetation fires with multimodal stereovision systems. Image processing and 3D registration are used in order to obtain a three-dimensional modeling of the fire at each instant of image acquisition and then to compute fire front characteristics like its position, its rate of spread, its height, its width, its inclination, its surface and its volume. The first important contribution of this thesis is the fire pixel detection. A benchmark of fire pixel detection algorithms and of those that are developed in this thesis have been on a database of 500 vegetation fire images of the visible spectra which have been characterized according to the fire properties in the image (color, smoke, luminosity). Five fire pixel detection algorithms based on fusion of data from visible and near-infrared spectra images have also been developed and tested on another database of 100 multimodal images. The second important contribution of this thesis is about the use of images fusion for the optimization of the matching point’s number between the multimodal stereo images.The second important contribution of this thesis is the registration method of 3D fire points obtained with stereovision systems. It uses information collected from a housing containing a GPS and an IMU card which is positioned on each stereovision systems. With this registration, a method have been developed to extract the geometrical characteristics when the fire is spreading.The geometrical characteristics estimation device have been evaluated on a car of known dimensions and the results obtained confirm the good accuracy of the device. The results obtained from vegetation fires are also presented
APA, Harvard, Vancouver, ISO, and other styles
4

Kijak, Ewa. "Structuration multimodale des vidéos de sport par modèles stochastiques." Phd thesis, Université Rennes 1, 2003. http://tel.archives-ouvertes.fr/tel-00532944.

Full text
Abstract:
Cette étude présente une méthode de structuration d'une vidéo utilisant des indices sonores et visuels. Cette méthode repose sur un modèle statistique de l'entrelacement temporel des plans de la vidéo. Le cadre général de la modélisation est celui des modèles de Markov cachés. Les indices visuels sont utilisés pour caractériser le type des plans. Les indices audio décrivent les événements sonores apparaissant durant un plan. La structure de la vidéo est représentée par un modèle de Markov caché hiérarchique, intégrant les informations a priori sur le contenu de la vidéo, ainsi que sur les règles d'édition. L'approche est validée dans le cadre des vidéos de tennis, ce dernier présentant une structure intrinsèque hiérarchique bien définie. En résultat de l'analyse de l'entrelacement temporel des différents types de plans, des scènes caractéristiques du tennis sont identifiées. De plus, chaque plan de la vidéo est assigné à un niveau de hiérarchie décrit en terme de point, jeu et set. Cette classification et segmentation simultanées de la structure globale de la vidéo peuvent être utilisées pour la création de résumés vidéo ou pour permettre une navigation non linéaire dans le document vidéo.
APA, Harvard, Vancouver, ISO, and other styles
5

GAUTHIER, GERVAIS. "Applications de la morphologie mathematique fonctionnelle : analyse des textures en niveaux de gris et segmentation par approche multimodale." Caen, 1995. http://www.theses.fr/1995CAEN2050.

Full text
Abstract:
Les materiaux sont etudies par analyse de la texture interne donnant acces aux proprietes thermiques, electriques et mecaniques et par analyse de la forme externe (frottements et proprietes catalytiques). La premiere partie s'attache a la caracterisation de la forme externe. Les moyens d'observation sont presentes et critiques. Les differents parametres de mesure lies a la rugosite sont extraits soit de la surface, soit de profils verticaux, soit de sections horizontales. Leur caracterisation est insuffisante ; il est donc necessaire de recourir a l'emploi de fonctions d'abord de nature metrique et ensuite de nature topologique. Les granulometries morphologiques en niveaux de gris permettent de quantifier les tailles des anfractuosites et des asperites. Ensuite, on definit d'une maniere analogue les fonctions de rugosite, dont une est independante des anamorphoses. Les surfaces non planes sont etudiees a l'aide de fonctions de mesure dependant d'un parametre de hauteur d'inondation. Trois processus sont alors definis: l'immersion, l'inondation par defaut et par exces est rapidement ecarte par manque de stabilite. L'immersion renseigne sur le degre de symetrie du relief et donne des coefficients de taille des pics et des creux, tandis que l'inondation par defaut caracterise la microrugosite. Dans la seconde partie, un exemple d'analyse de la texture interne est decrit. Une procedure de segmentation automatique des cermets wc-co est proposee. Puis, des mesures sont realisees sur les images resultantes ; elles sont alors comparees aux mesures effectuees sur les images segmentees par un operateur qualifie ; les ecarts de mesures sont inferieurs aux fluctuations statistiques: les resultats sont donc probants
APA, Harvard, Vancouver, ISO, and other styles
6

Pham, Quoc Cuong. "Segmentation et mise en correspondance en imagerie cardiaque multimodale conduites par un modèle anatomique bi-cavités du coeur." Grenoble INPG, 2002. http://www.theses.fr/2002INPG0153.

Full text
Abstract:
L'imagerie cardiaque multimodale permet d'appréhender l'anatomie et les différents aspects fonctionnels du coeur, avec une précision croissante. Cette connaissance est essentielle dans le cadre de l'étude des pathologies ischémiques. Nous nous intéressons en premier lieu à l'extraction automatique de l'anatomie cardiaque à partir d'images par résonance magnétique. Notre approche de segmentation s'appuie sur l'utilisation d'un gabarit déformable élastique composé d'un modèle topologique et géométrique volumique des deux ventricules du coeur et d'un modèle mécanique de déformation élastique. Le gabarit déformable évolue sous l'action d'un champ de forces issu de l'image. Un modèle physique de régularisation des interfaces du modèle proposé. Nous montrons ensuite que la prise en compte de la non-linéarité géométrique consistant à déplacer le domaine de manière incrémentale, et l'introduction d'une contrainte de champ nul dans l'algorithme de minimisation permettent d'améliorer significativement la converence du modèle. Les performances de ces méthodes sont illustrées sur des cas de simulation et sur 10 cas cliniques. Dans une seconde partie, nous nous attaquons au problème de la mise en correspondance d'images cardiaques multimodalité. Une méthode de recalage affine modèle/image basée sur un critère à optimiser à la fois géométrique et iconique est présentée. Cette technique est utilisée efficacement comme initiation du modèle déformable pour la segmentation. Enfin, nous présentons une stratégie de mise en correspondance de données cardiaques permettant de combiner des informations de morphologie (imagerie par résonance magnétique), de métabolisme (tomographie par émission de positions) et d'activité électromagnétique (magnétocardiographie), et d'obtenir des modèles 3-D anatomo-fonctionnels individualisés du coeur. De tels outils pourront être exploités avantageusement en recherche clinique pour l'évaluation de l'état fonctionnel du myocarde ischémique.
APA, Harvard, Vancouver, ISO, and other styles
7

Irace, Zacharie. "Modélisation statistique et segmentation d'images TEP : application à l'hétérogénéité et au suivi de tumeurs." Phd thesis, Toulouse, INPT, 2014. http://oatao.univ-toulouse.fr/12201/1/irace.pdf.

Full text
Abstract:
Cette thèse étudie le traitement statistique des images TEP. Plus particulièrement, la distribution binomiale négative est proposée pour modéliser l’activité d’une région mono-tissulaire. Cette représentation a l’avantage de pouvoir prendre en compte les variations d’activité biologique (ou hétérogénéité) d’un même tissu. A partir de ces résultats, il est proposé de modéliser la distribution de l’image TEP entière comme un mélange spatialement cohérent de lois binomiales négatives. Des méthodes Bayésiennes sont considérées pour la segmentation d’images TEP et l’estimation conjointe des paramètres du modèle. La cohérence spatiale inhérente aux tissus biologiques est modélisée par un champ aléatoire de Potts-Markov pour représenter la dépendance locale entre les composantes du mélange. Un algorithme original de Monte Carlo par Chaîne de Markov (MCMC) est utilisé, faisant appel aux notions d’échantillonnage dans un espace Riemannien et d’opérateurs proximaux. L’approche proposée est appliquée avec succès à la segmentation de tumeurs en imagerie TEP. Cette méthode est ensuite étendue d’une part en intégrant au processus de segmentation des informations anatomiques acquises par tomodensitométrie (TDM), et d’autre part en traitant une série temporelle d’images correspondant aux différentes phases de respiration. Un modèle de mélange de distributions bivariées binomiale négative - normale est proposé pour représenter les images dynamiques TEP et TDM fusionnées. Un modèle Bayésien hiérarchique a été élaboré comprenant un champ de Potts-Markov à quatre dimensions pour respecter la cohérence spatiale et temporelle des images PET-TDM dynamiques. Le modèle proposé montre une bonne qualité d’ajustement aux données et les résultats de segmentation obtenus sont visuellement en concordance avec les structures anatomiques et permettent la délimitation et le suivi de la tumeur.
APA, Harvard, Vancouver, ISO, and other styles
8

Toulouse, Tom. "Estimation par stéréovision multimodale de caractéristiques géométriques d'un feu de végétation en propagation." Doctoral thesis, Université Laval, 2015. http://hdl.handle.net/20.500.11794/26472.

Full text
Abstract:
Les travaux menés dans cette thèse concernent le développement d’un dispositif de vision permettant l’estimation de caractéristiques géométriques d’un feu de végétation en propagation. Ce dispositif est composé de plusieurs systèmes de stéréovision multimodaux générant des paires d’images stéréoscopiques à partir desquelles des points tridimensionnels sont calculés et les caractéristiques géométriques de feu tels que sa position, vitesse, hauteur, profondeur, inclinaison, surface et volume sont estimées. La première contribution importante de cette thèse est la détection de pixels de feu de végétation. Tous les algorithmes de détection de pixels de feu de la littérature ainsi que ceux développés dans le cadre de cette thèse ont été évalués sur une base de 500 images de feux de végétation acquises dans le domaine du visible et caractérisées en fonction des propriétés du feu dans l’image (couleur, fumée, luminosité). Cinq algorithmes de détection de pixels de feu de végétation basés sur la fusion de données issues d’images acquises dans le domaine du visible et du proche-infrarouge ont également été développés et évalués sur une autre base de données composée de 100 images multimodales caractérisées. La deuxième contribution importante de cette thèse concerne l’utilisation de méthodes de fusion d’images pour l’optimisation des points appariés entre les images multimodales stéréoscopiques. La troisième contribution importante de cette thèse est l’estimation des caractéristiques géométriques de feu à partir de points tridimensionnels obtenus depuis plusieurs paires d’images stéréoscopiques et recalés à l’aide de relevés GPS et d’inclinaison de tous les dispositifs de vision. Le dispositif d’estimation de caractéristiques géométriques à partir de systèmes de stéréovision a été évalué sur des objets rigides de dimensions connues et a permis d’obtenir les informations souhaitées avec une bonne précision. Les résultats des données obtenues pour des feux de végétation en propagation sont aussi présentés. Mots clefs : Feux de forêt, stéréovision, traitement d’images, segmentation, multimodal.
This thesis presents the geometrical characteristics measurement of spreading vegetation fires with multimodal stereovision systems. Image processing and 3D registration are used in order to obtain a three-dimensional modeling of the fire at each instant of image acquisition and then to compute fire front characteristics like its position, its rate of spread, its height, its width, its inclination, its surface and its volume. The first important contribution of this thesis is the fire pixel detection. A benchmark of fire pixel detection algorithms of the litterature and of those that are developed in this thesis have been on a database of 500 vegetation fire images of the visible spectra which have been characterized according to the fire properties in the image (color, smoke, luminosity). Five fire pixel detection algorithms based on fusion of data from visible and near-infrared spectra images have also been developed and tested on another database of 100 multimodal images. The second important contribution of this thesis is about the use of images fusion for the optimization of the matching point’s number between the multimodal stereo images. The second important contribution of this thesis is the registration method of 3D fire points obtained with stereovision systems. It uses information collected from a housing containing a GPS and an IMU card which is positioned on each stereovision systems. With this registration, a method have been developed to extract the geometrical characteristics when the fire is spreading. The geometrical characteristics estimation device have been evaluated on a car of known dimensions and the results obtained confirm the good accuracy of the device. The results obtained from vegetation fires are also presented. Key words: wildland fire, stereovision, image processing segmentation, multimodal.
APA, Harvard, Vancouver, ISO, and other styles
9

Baban, a. erep Thierry Roland. "Contribution au développement d'un système intelligent de quantification des nutriments dans les repas d'Afrique subsaharienne." Electronic Thesis or Diss., Université de Toulouse (2023-....), 2024. http://www.theses.fr/2024TLSEP100.

Full text
Abstract:
La malnutrition, qu'elle soit liée à un apport insuffisant ou excessif en nutriments, représente un défi mondial de santé publique touchant des milliards de personnes. Elle affecte tous les systèmes organiques en étant un facteur majeur de risque pour les maladies non transmissibles telles que les maladies cardiovasculaires, le diabète et certains cancers. Évaluer l'apport alimentaire est crucial pour prévenir la malnutrition, mais cela reste un défi. Les méthodes traditionnelles d'évaluation alimentaire sont laborieuses et sujettes aux biais. Les avancées en IA ont permis la conception de VBDA, solution prometteuse pour analyser automatiquement les images alimentaires afin d'estimer les portions et la composition nutritionnelle. Cependant, la segmentation des images alimentaires dans un VBDA rencontre des difficultés en raison de la structure non rigide des aliments, de la variation intra-classe élevée (où le même type d'aliment peut apparaître très différent), de la ressemblance inter-classe (où différents types d'aliments semblent visuellement très similaires) et de la rareté des ensembles de données disponibles publiquement.Presque toutes les recherches sur la segmentation alimentaire se sont concentrées sur les aliments asiatiques et occidentaux, en l'absence de bases de données pour les cuisines africaines. Cependant, les plats africains impliquent souvent des classes alimentaires mélangées, rendant la segmentation précise difficile. De plus, la recherche s'est largement concentrée sur les images RGB, qui fournissent des informations sur la couleur et la texture mais pourraient manquer de suffisamment de détails géométriques. Pour y remédier, la segmentation RGB-D combine des données de profondeur avec des images RGB. Les images de profondeur fournissent des détails géométriques cruciaux qui enrichissent les données RGB, améliorent la discrimination des objets et sont robustes face à des facteurs tels que l'illumination et le brouillard. Malgré son succès dans d'autres domaines, la segmentation RGB-D pour les aliments est peu explorée en raison des difficultés à collecter des images de profondeur des aliments.Cette thèse apporte des contributions clés en développant de nouveaux modèles d'apprentissage profond pour la segmentation d'images RGB (mid-DeepLabv3+) et RGB-D (ESeNet-D) et en introduisant les premiers ensembles de données axés sur les images alimentaires africaines. Mid-DeepLabv3+ est basé sur DeepLabv3+, avec un backbone ResNet simplifié et une couche de saut (middle layer) ajoutée dans le décodeur, ainsi que des couches mécanisme d'attention SimAM. Ce model offre un excellent compromis entre performance et efficacité computationnelle. ESeNet-D est composé de deux branches d'encodeurs utilisant EfficientNetV2 comme backbone, avec un bloc de fusion pour l'intégration multi-échelle et un décodeur employant des convolutions auto-calibrée et interpolations entrainées pour une segmentation précise. ESeNet-D surpasse de nombreux modèles de référence RGB et RGB-D tout en ayant une charge computationnelle plus faible. Nos expériences ont montré que, lorsqu'elles sont correctement intégrées, les informations relatives à la profondeur peuvent améliorer de manière significative la précision de la segmentation des images alimentaires.Nous présentons également deux nouvelles bases de données : AfricaFoodSeg pour la segmentation « aliment/non-aliment » avec 3067 images (2525 pour l'entraînement, 542 pour la validation), et CamerFood, axée sur la cuisine camerounaise. Les ensembles de données CamerFood comprennent CamerFood10 avec 1422 images et dix classes alimentaires, et CamerFood15, une version améliorée avec 15 classes alimentaires, 1684 images d'entraînement et 514 images de validation. Enfin, nous abordons le défi des données de profondeur rares dans la segmentation RGB-D des aliments en démontrant que les modèles MDE peuvent aider à générer des cartes de profondeur efficaces pour les ensembles de données RGB-D
Malnutrition, including under- and overnutrition, is a global health challenge affecting billions of people. It impacts all organ systems and is a significant risk factor for noncommunicable diseases such as cardiovascular diseases, diabetes, and some cancers. Assessing food intake is crucial for preventing malnutrition but remains challenging. Traditional methods for dietary assessment are labor-intensive and prone to bias. Advancements in AI have made Vision-Based Dietary Assessment (VBDA) a promising solution for automatically analyzing food images to estimate portions and nutrition. However, food image segmentation in VBDA faces challenges due to food's non-rigid structure, high intra-class variation (where the same dish can look very different), inter-class resemblance (where different foods appear similar) and scarcity of publicly available datasets.Almost all food segmentation research has focused on Asian and Western foods, with no datasets for African cuisines. However, African dishes often involve mixed food classes, making accurate segmentation challenging. Additionally, research has largely focus on RGB images, which provides color and texture but may lack geometric detail. To address this, RGB-D segmentation combines depth data with RGB images. Depth images provide crucial geometric details that enhance RGB data, improve object discrimination, and are robust to factors like illumination and fog. Despite its success in other fields, RGB-D segmentation for food is underexplored due to difficulties in collecting food depth images.This thesis makes key contributions by developing new deep learning models for RGB (mid-DeepLabv3+) and RGB-D (ESeNet-D) image segmentation and introducing the first food segmentation datasets focused on African food images. Mid-DeepLabv3+ is based on DeepLabv3+, featuring a simplified ResNet backbone with and added skip layer (middle layer) in the decoder and SimAM attention mechanism. This model offers an optimal balance between performance and efficiency, matching DeepLabv3+'s performance while cutting computational load by half. ESeNet-D consists on two encoder branches using EfficientNetV2 as backbone, with a fusion block for multi-scale integration and a decoder employing self-calibrated convolution and learned interpolation for precise segmentation. ESeNet-D outperforms many RGB and RGB-D benchmark models while having fewer parameters and FLOPs. Our experiments show that, when properly integrated, depth information can significantly improve food segmentation accuracy. We also present two new datasets: AfricaFoodSeg for “food/non-food” segmentation with 3,067 images (2,525 for training, 542 for validation), and CamerFood focusing on Cameroonian cuisine. CamerFood datasets include CamerFood10 with 1,422 images from ten food classes, and CamerFood15, an enhanced version with 15 food classes, 1,684 training images, and 514 validation images. Finally, we address the challenge of scarce depth data in RGB-D food segmentation by demonstrating that Monocular Depth Estimation (MDE) models can aid in generating effective depth maps for RGB-D datasets
APA, Harvard, Vancouver, ISO, and other styles
10

Ercolessi, Philippe. "Extraction multimodale de la structure narrative des épisodes de séries télévisées." Toulouse 3, 2013. http://thesesups.ups-tlse.fr/2056/.

Full text
Abstract:
Nos contributions portent sur l'extraction de la structure narrative d'épisodes de séries télévisées à deux niveaux hiérarchiques. Le premier niveau de structuration consiste à retrouver les transitions entre les scènes à partir d'une analyse de la couleur des images et des locuteurs présents dans les scènes. Nous montrons que l'analyse des locuteurs permet d'améliorer le résultat d'une segmentation en scènes basée sur la couleur. Il est courant de voir plusieurs histoires (ou lignes d'actions) racontées en parallèle dans un même épisode de série télévisée. Ainsi, le deuxième niveau de structuration consiste à regrouper les scènes en histoires. Nous cherchons à désentrelacer les histoires pour pouvoir, par exemple, visualiser les différentes lignes d'actions indépendamment. La principale difficulté consiste à déterminer les descripteurs les plus pertinents permettant de regrouper les scènes appartenant à une même histoire. A ce niveau, nous étudions également l'utilisation de descripteurs provenant des trois modalités différentes précédemment exposées. Nous proposons en outre des méthodes permettant de fusionner les informations provenant de ces trois modalités. Pour répondre à la variabilité de la structure narrative des épisodes de séries télévisées, nous proposons une méthode qui s'adapte à chaque épisode. Elle permet de choisir automatiquement la méthode de regroupement la plus pertinente parmi les différentes méthodes proposées. Enfin, nous avons développé StoViz, un outil de visualisation de la structure d'un épisode de série télévisée (scènes et histoires). Il permet de faciliter la navigation au sein d'un épisode, en montrant les différentes histoires racontées en parallèle dans l'épisode. Il permet également la lecture des épisodes histoire par histoire, et la visualisation d'un court résumé de l'épisode en donnant un aperçu de chaque histoire qui y est racontée
Our contributions concern the extraction of the structure of TV series episodes at two hierarchical levels. The first level of structuring is to find the scene transitions based on the analysis of the color information and the speakers involved in the scenes. We show that the analysis of the speakers improves the result of a color-based segmentation into scenes. It is common to see several stories (or lines of action) told in parallel in a single TV series episode. Thus, the second level of structure is to cluster scenes into stories. We seek to deinterlace the stories in order to visualize the different lines of action independently. The main difficulty is to determine the most relevant descriptors for grouping scenes belonging to the same story. We explore the use of descriptors from the three different modalities described above. We also propose methods to combine these three modalities. To address the variability of the narrative structure of TV series episodes, we propose a method that adapts to each episode. It can automatically select the most relevant clustering method among the various methods we propose. Finally, we developed StoViz, a tool for visualizing the structure of a TV series episode (scenes and stories). It allows an easy browsing of each episode, revealing the different stories told in parallel. It also allows playback of episodes story by story, and visualizing a summary of the episode by providing a short overview of each story
APA, Harvard, Vancouver, ISO, and other styles
11

Yang, Yingyu. "Analyse automatique de la fonction cardiaque par intelligence artificielle : approche multimodale pour un dispositif d'échocardiographie portable." Electronic Thesis or Diss., Université Côte d'Azur, 2023. http://www.theses.fr/2023COAZ4107.

Full text
Abstract:
Selon le rapport annuel de la Fédération Mondiale du Cœur de 2023, les maladies cardiovasculaires (MCV) représentaient près d'un tiers de tous les décès mondiaux en 2021. Comparativement aux pays à revenu élevé, plus de 80% des décès par MCV surviennent dans les pays à revenu faible et intermédiaire. La répartition inéquitable des ressources de diagnostic et de traitement des MCV demeure toujours non résolue. Face à ce défi, les dispositifs abordables d'échographie de point de soins (POCUS) ont un potentiel significatif pour améliorer le diagnostic des MCV. Avec l'aide de l'intelligence artificielle (IA), le POCUS permet aux non-experts de contribuer, améliorant ainsi largement l'accès aux soins, en particulier dans les régions moins desservies.L'objectif de cette thèse est de développer des algorithmes robustes et automatiques pour analyser la fonction cardiaque à l'aide de dispositifs POCUS, en mettant l'accent sur l'échocardiographie et l'électrocardiogramme. Notre premier objectif est d'obtenir des caractéristiques cardiaques explicables à partir de chaque modalité individuelle. Notre deuxième objectif est d'explorer une approche multimodale en combinant les données d'échocardiographie et d'électrocardiogramme.Nous commençons par présenter deux nouvelles structures d'apprentissage profond (DL) pour la segmentation de l'échocardiographie et l'estimation du mouvement. En incorporant des connaissance a priori de forme et de mouvement dans les modèles DL, nous démontrons, grâce à des expériences approfondies, que de tels a priori contribuent à améliorer la précision et la généralisation sur différentes séries de données non vues. De plus, nous sommes en mesure d'extraire la fraction d'éjection du ventricule gauche (FEVG), la déformation longitudinale globale (GLS) et d'autres indices utiles pour la détection de l'infarctus du myocarde (IM).Ensuite, nous proposons un modèle DL explicatif pour la décomposition non supervisée de l'électrocardiogramme. Ce modèle peut extraire des informations explicables liées aux différentes sous-ondes de l'ECG sans annotation manuelle. Nous appliquons ensuite ces paramètres à un classificateur linéaire pour la détection de l'infarctus du myocarde, qui montre une bonne généralisation sur différentes séries de données.Enfin, nous combinons les données des deux modalités pour une classification multimodale fiable. Notre approche utilise une fusion au niveau de la décision intégrant de l'incertitude, permettant l'entraînement avec des données multimodales non appariées. Nous évaluons ensuite le modèle entraîné à l'aide de données multimodales appariées, mettant en évidence le potentiel de la détection multimodale de l'IM surpassant celle d'une seule modalité.Dans l'ensemble, nos algorithmes proposés robustes et généralisables pour l'analyse de l'échocardiographie et de l'ECG démontrent un potentiel significatif pour l'analyse de la fonction cardiaque portable. Nous anticipons que notre cadre pourrait être davantage validé à l'aide de dispositifs portables du monde réel
According to the 2023 annual report of the World Heart Federation, cardiovascular diseases (CVD) accounted for nearly one third of all global deaths in 2021. Compared to high-income countries, more than 80% of CVD deaths occurred in low and middle-income countries. The inequitable distribution of CVD diagnosis and treatment resources still remains unresolved. In the face of this challenge, affordable point-of-care ultrasound (POCUS) devices demonstrate significant potential to improve the diagnosis of CVDs. Furthermore, by taking advantage of artificial intelligence (AI)-based tools, POCUS enables non-experts to help, thus largely improving the access to care, especially in less-served regions.The objective of this thesis is to develop robust and automatic algorithms to analyse cardiac function for POCUS devices, with a focus on echocardiography (ECHO) and electrocardiogram (ECG). Our first goal is to obtain explainable cardiac features from each single modality respectively. Our second goal is to explore a multi-modal approach by combining ECHO and ECG data.We start by presenting two novel deep learning (DL) frameworks for echocardiography segmentation and motion estimation tasks, respectively. By incorporating shape prior and motion prior into DL models, we demonstrate through extensive experiments that such prior can help improve the accuracy and generalises well on different unseen datasets. Furthermore, we are able to extract left ventricle ejection fraction (LVEF), global longitudinal strain (GLS) and other useful indices for myocardial infarction (MI) detection.Next, we propose an explainable DL model for unsupervised electrocardiogram decomposition. This model can extract interpretable information related to different ECG subwaves without manual annotation. We further apply those parameters to a linear classifier for myocardial infarction detection, which showed good generalisation across different datasets.Finally, we combine data from both modalities together for trustworthy multi-modal classification. Our approach employs decision-level fusion with uncertainty, allowing training with unpaired multi-modal data. We further evaluate the trained model using paired multi-modal data, showcasing the potential of multi-modal MI detection to surpass that from a single modality.Overall, our proposed robust and generalisable algorithms for ECHO and ECG analysis demonstrate significant potential for portable cardiac function analysis. We anticipate that our novel framework could be further validated using real-world portable devices. We envision that such advanced integrative tools may significantly contribute towards better identification of CVD patients
APA, Harvard, Vancouver, ISO, and other styles
12

Hu, Sijie. "Deep multimodal visual data fusion for outdoor scenes analysis in challenging weather conditions." Electronic Thesis or Diss., université Paris-Saclay, 2023. http://www.theses.fr/2023UPAST121.

Full text
Abstract:
Les données visuelles multimodales peuvent fournir des informations différentes sur la même scène, améliorant ainsi la précision et la robustesse de l'analyse de scènes. Cette thèse se concentre principalement sur la façon d'utiliser efficacement les données visuelles multimodales telles que les images en couleur, les images infrarouges et les images de profondeur, et sur la façon de fusionner ces données visuelles pour une compréhension plus complète de l'environnement. Nous avons choisi la segmentation sémantique et la détection d'objets, deux tâches représentatives de la vision par ordinateur, pour évaluer et valider différentes méthodes de fusion de données visuelles multimodales. Ensuite, nous proposons un schéma de fusion RGB-D basé sur l'attention additive, considérant la carte de profondeur comme une modalité auxiliaire pour fournir des indices géométriques supplémentaires, et résolvant le coût élevé associé à l'auto-attention. Compte tenu de la complexité de la perception de scènes en conditions de faible luminosité, nous avons conçu un module de fusion croisée qui utilise l'attention de canal et spatiale pour explorer les informations complémentaires des paires d'images visible-infrarouge, améliorant ainsi la perception de l'environnement par le système. Enfin, nous avons également abordé l'application des données visuelles multimodales dans l'adaptation de domaine non supervisée. Nous proposons d'utiliser des indices de profondeur pour guider le modèle à apprendre la représentation de caractéristiques invariables au domaine. Les nombreux résultats expérimentaux indiquent que les méthodes proposées surpassent les autres méthodes sur plusieurs bases de données multimodales disponibles publiquement et peuvent être étendues à différents types de modèles, démontrant ainsi davantage la robustesse et les capacités de généralisation de nos méthodes dans les tâches de perception de scènes en extérieur
Multi-modal visual data can provide different information about the same scene, thus enhancing the accuracy and robustness of scene analysis. This thesis mainly focuses on how to effectively utilize multi-modal visual data such as color images, infrared images, and depth images, and how to fuse these visual data for a more comprehensive understanding of the environment. Semantic segmentation and object detection, two representative computer vision tasks, were selected for investigating and verifying different multi-modal visual data fusion methods. Then, we propose an additive-attention-based RGB-D fusion scheme, considering the depth map as an auxiliary modality to provide additional geometric clues, and solving the high cost associated with self-attention. Considering the complexity of scene perception under low-light conditions, we designed a cross-fusion module that uses channel and spatial attention to explore the complementary information of visible-infrared image pairs, enhancing the system's perception of the environment. Additionally, we also researched the application of multi-modal visual data in unsupervised domain adaptation. We proposed to leverage depth cues to guide the model to learn domain-invariant feature representation. Extensive research results indicate that the proposed methods outperform others on multiple publicly available multi-modal datasets and can be extended to different types of models, which further demonstrating the robustness and generalization capabilities of our methods in outdoor scene perception tasks
APA, Harvard, Vancouver, ISO, and other styles
13

Barquero, Harold. "Limited angular range X-ray micro-computerized tomography : derivation of anatomical information as a prior for optical luminescence tomography." Thesis, Strasbourg, 2015. http://www.theses.fr/2015STRAE033/document.

Full text
Abstract:
Cette thèse traite du couplage d'un tomographe optique par luminescence (LCT) et d'un tomographe par rayons X (XCT), en présence d'une contrainte sur la géométrie d'acquisition du XCT. La couverture angulaire du XCT est limitée à 90 degrés pour satisfaire des contraintes spatiales imposées par le LCT existant dans lequel le XCT doit être intégré. L'objectif est de dériver une information anatomique, à partir de l'image morphologique issue du XCT. Notre approche a consisté i) en l'implémentation d'un algorithme itératif régularisé pour la reconstruction tomographique à angle limité, ii) en la construction d'un atlas anatomique statistique de la souris et iii) en l'implémentation d'une chaîne automatique réalisant la segmentation des images XCT, l'attribution d'une signification anatomique aux éléments segmentés, le recalage de l'atlas statistique sur ces éléments et ainsi l'estimation des contours de certains tissus à faible contraste non identifiables en pratique dans une image XCT standard
This thesis addresses the combination of an Optical Luminescence Tomograph (OLT) and X-ray Computerized Tomograph (XCT), dealing with geometrical constraints defined by the existing OLT system in which the XCT must be integrated. The result is an acquisition geometry of XCT with a 90 degrees angular range only. The aim is to derive an anatomical information from the morphological image obtained with the XCT. Our approach consisted i) in the implementation of a regularized iterative algorithm for the tomographic reconstruction with limited angle data, ii) in the construction of a statistical anatomical atlas of the mouse and iii) in the implementation of an automatic segmentation workflow performing the segmentation of XCT images, the labelling of the segmented elements, the registration of the statistical atlas on these elements and consequently the estimation of the outlines of low contrast tissues that can not be identified in practice in a standard XCT image
APA, Harvard, Vancouver, ISO, and other styles
14

Lambert, C. P. "Multimodal segmentation of deep cortical structures." Thesis, University College London (University of London), 2012. http://discovery.ucl.ac.uk/1344055/.

Full text
Abstract:
The organisation of the human cortex is characterised by macroscopically defined areas consisting of functionally distinct subunits, each connected to an array of local and distant targets forming distinctive networks. Classically, these structures have been parcellated according to ex vivo cytochemical and connectivity properties. However, the emergent flaw with this approach is the presence of significant inter-hemispheric and inter-individual anatomical variability. By exploiting several MRI modalities, a similar approach to sub-regional parcellation can be applied in vivo across large numbers of individuals. Using diffusion tensor imaging (DTI), probabilistic tractography can be used to generate a representation of the white matter pathways originating from or passing through a single voxel. By quantifying the degree of similarity between different tract distributions, regional parcellation can be achieved through several algorithms. These have previously been used on regions such as the thalamus and basal ganglia. However, due to computational limitations, it is normal practice to apply dimension reduction tactics prior to parcellation, thereby generating an upper bound on the degree of accuracy that can be achieved. I have set out to further this pre-existing framework by developing methods to analyse and cluster massive matrices without down-sampling data, thereby generating a prior free, bottom-up approach to regional parcellation based on regional connectivity. I have applied this approach to several areas including the sub-thalamic nucleus, amygdala and human brainstem. Several fundamental properties and limitations of the technique are revealed, and additional methods developed to further improve the white matter parcellation. This includes a novel method of multichannel segmentation, which was applied to the human brainstem and cortex. The new tissue classes were used both for quantitative analysis, and also to improve DTI based segmentation. Throughout, the findings are extrapolated to examine a variety of neuropathological scenarios, including symptom networks, pre-clinical diagnosis and therapeutic interventions such as deep brain stimulation.
APA, Harvard, Vancouver, ISO, and other styles
15

Coimbra, Danilo Barbosa. "Segmentação de cenas em telejornais: uma abordagem multimodal." Universidade de São Paulo, 2011. http://www.teses.usp.br/teses/disponiveis/55/55134/tde-28062011-103714/.

Full text
Abstract:
Este trabalho tem como objetivo desenvolver um método de segmentação de cenas em vídeos digitais que trate segmentos semânticamente complexos. Como prova de conceito, é apresentada uma abordagem multimodal que utiliza uma definição mais geral para cenas em telejornais, abrangendo tanto cenas onde âncoras aparecem quanto cenas onde nenhum âncora aparece. Desse modo, os resultados obtidos da técnica multimodal foram signifiativamente melhores quando comparados com os resultados obtidos das técnicas monomodais aplicadas em separado. Os testes foram executados em quatro grupos de telejornais brasileiros obtidos de duas emissoras de TV diferentes, cada qual contendo cinco edições, totalizando vinte telejornais
This work aims to develop a method for scene segmentation in digital video which deals with semantically complex segments. As proof of concept, we present a multimodal approach that uses a more general definition for TV news scenes, covering both: scenes where anchors appear on and scenes where no anchor appears. The results of the multimodal technique were significantly better when compared with the results from monomodal techniques applied separately. The tests were performed in four groups of Brazilian news programs obtained from two different television stations, containing five editions each, totaling twenty newscasts
APA, Harvard, Vancouver, ISO, and other styles
16

Tochon, Guillaume. "Analyse hiérarchique d'images multimodales." Thesis, Université Grenoble Alpes (ComUE), 2015. http://www.theses.fr/2015GREAT100/document.

Full text
Abstract:
Il y a un intérêt grandissant pour le développement d’outils de traitements adaptés aux images multimodales (plusieurs images de la même scène acquises avec différentes caractéristiques). Permettant une représentation plus complète de la scène, ces images multimodales ont de l'intérêt dans plusieurs domaines du traitement d'images, mais les exploiter et les manipuler de manière optimale soulève plusieurs questions. Cette thèse étend les représentations hiérarchiques, outil puissant pour le traitement et l’analyse d’images classiques, aux images multimodales afin de mieux exploiter l’information additionnelle apportée par la multimodalité et améliorer les techniques classiques de traitement d’images. Cette thèse se concentre sur trois différentes multimodalités fréquemment rencontrées dans le domaine de la télédétection. Nous examinons premièrement l’information spectrale-spatiale des images hyperspectrales. Une construction et un traitement adaptés de la représentation hiérarchique nous permettent de produire une carte de segmentation de l'image optimale vis-à-vis de l'opération de démélange spectrale. Nous nous concentrons ensuite sur la multimodalité temporelle, traitant des séquences d’images hyperspectrales. En utilisant les représentations hiérarchiques des différentes images de la séquence, nous proposons une nouvelle méthode pour effectuer du suivi d’objet et l’appliquons au suivi de nuages de gaz chimique dans des séquences d’images hyperspectrales dans le domaine thermique infrarouge. Finalement, nous étudions la multimodalité sensorielle, c’est-à-dire les images acquises par différents capteurs. Nous appuyant sur le concept des tresses de partitions, nous proposons une nouvelle méthodologie de segmentation se basant sur un cadre de minimisation d’énergie
There is a growing interest in the development of adapted processing tools for multimodal images (several images acquired over the same scene with different characteristics). Allowing a more complete description of the scene, multimodal images are of interest in various image processing fields, but their optimal handling and exploitation raise several issues. This thesis extends hierarchical representations, a powerful tool for classical image analysis and processing, to multimodal images in order to better exploit the additional information brought by the multimodality and improve classical image processing techniques. %when applied to real applications. This thesis focuses on three different multimodalities frequently encountered in the remote sensing field. We first investigate the spectral-spatial information of hyperspectral images. Based on an adapted construction and processing of the hierarchical representation, we derive a segmentation which is optimal with respect to the spectral unmixing operation. We then focus on the temporal multimodality and sequences of hyperspectral images. Using the hierarchical representation of the frames in the sequence, we propose a new method to achieve object tracking and apply it to chemical gas plume tracking in thermal infrared hyperspectral video sequences. Finally, we study the sensorial multimodality, being images acquired with different sensors. Relying on the concept of braids of partitions, we propose a novel methodology of image segmentation, based on an energetic minimization framework
APA, Harvard, Vancouver, ISO, and other styles
17

Gan, Rui. "Robust multimodal medical image registration and statistical cerebrovascular segmentation /." View abstract or full-text, 2006. http://library.ust.hk/cgi/db/thesis.pl?COMP%202006%20GAN.

Full text
APA, Harvard, Vancouver, ISO, and other styles
18

Damoni, Arben. "Multimodal segmentation for data mining applications in multimedia engineering." Thesis, London South Bank University, 2012. http://ethos.bl.uk/OrderDetails.do?uin=uk.bl.ethos.631732.

Full text
Abstract:
This project describes a novel approach to the development of a multimodal video segmentation system for the analysis of multimedia data. The current practices of multimedia data analysis rely either solely on one of the video and audio components or on the presence of both together. The proposed approach makes use of both the video and audio inputs in parallel, complementing each other during the video processing stage, towards optimising both the accuracy and speed of the method. Unlike in the other commonly established methods, the video analysis here is carried out using both the luminance and the chrominance values of the colour images, instead of relying on either of them. The approach considered in the proposed method of video cut detection primarily uses a modified luminance based histogram analysis algorithm, supported by the additional sub-sampling and median filtering options. They improve the efficiency of the method through enhancing its speed and the accuracy of detection respectively. The algorithm mentioned above uses a progressively varying threshold for indicating a significant variation in the measurement of successive histograms for a window length of 2 image frames. The method worked successfully for the videos with varying rates and sizes of the frames that have been under investigation. Because of the degrading effect of chrominance histogram analysis on the processing speed its use is kept to a minimum. This is restricted only to verify the existence of possible cuts, failed to be identified by the luminance analysis. The indication of such cuts could be obtained through audio classification analysis.
APA, Harvard, Vancouver, ISO, and other styles
19

Hewa, Thondilege Akila Sachinthani Pemasiri. "Multimodal Image Correspondence." Thesis, Queensland University of Technology, 2022. https://eprints.qut.edu.au/235433/1/Akila%2BHewa%2BThondilege%2BThesis%281%29.pdf.

Full text
Abstract:
Multimodal images are used across many application areas including medical and surveillance. Due to the different characteristics of different imaging modalities, developing image processing algorithms for multimodal images is challenging. This thesis proposes effective solutions for the challenging problem of multimodal semantic correspondence where the connections between similar components across images from different modalities are established. The proposed methods which are based on deep learning techniques have been applied for several applications including epilepsy type classification and 3D reconstruction of human hand from visible and X-ray image. These proposed algorithms can be adapted to many other imaging modalities.
APA, Harvard, Vancouver, ISO, and other styles
20

Kim, Eun Young Reinhardt Joseph M. Johnson Hans J. "Multistructure segmentation of multimodal brain images using artificial neural networks." [Iowa City, Iowa] : University of Iowa, 2009. http://ir.uiowa.edu/etd/387.

Full text
APA, Harvard, Vancouver, ISO, and other styles
21

Kim, Eun Young. "Multistructure segmentation of multimodal brain images using artificial neural networks." Thesis, University of Iowa, 2009. https://ir.uiowa.edu/etd/387.

Full text
Abstract:
A method for simultaneously segmenting multiple anatomical brain structures from multi-modal MR images has been developed. An artificial neural network (ANN) was trained from a set of feature vectors created by a combination of high-resolution registration methods, atlas based spatial probability distributions, and a training set of 16 expert traced data sets. A set of feature vectors were adapted to increase performance of ANN segmentation; 1) a modified spatial location for structural symmetry of human brain, 2) neighbors along the priors' descent for directional consistency, and 3) candidate vectors based on the priors for the segmentation of multiple structures. The trained neural network was then applied to 8 data sets, and the results were compared with expertly traced structures for validation purposes. Comparing several reliability metrics, including a relative overlap, similarity index, and intraclass correlation of the ANN generated segmentations to a manual trace are similar or higher to those measures previously developed methods. The ANN provides a level of consistency between subjects and time efficiency comparing human labor that allows it to be used for very large studies.
APA, Harvard, Vancouver, ISO, and other styles
22

He, Linbo. "Improving 3D Point Cloud Segmentation Using Multimodal Fusion of Projected 2D Imagery Data : Improving 3D Point Cloud Segmentation Using Multimodal Fusion of Projected 2D Imagery Data." Thesis, Linköpings universitet, Datorseende, 2019. http://urn.kb.se/resolve?urn=urn:nbn:se:liu:diva-157705.

Full text
Abstract:
Semantic segmentation is a key approach to comprehensive image data analysis. It can be applied to analyze 2D images, videos, and even point clouds that contain 3D data points. On the first two problems, CNNs have achieved remarkable progress, but on point cloud segmentation, the results are less satisfactory due to challenges such as limited memory resource and difficulties in 3D point annotation. One of the research studies carried out by the Computer Vision Lab at Linköping University was aiming to ease the semantic segmentation of 3D point cloud. The idea is that by first projecting 3D data points to 2D space and then focusing only on the analysis of 2D images, we can reduce the overall workload for the segmentation process as well as exploit the existing well-developed 2D semantic segmentation techniques. In order to improve the performance of CNNs for 2D semantic segmentation, the study has used input data derived from different modalities. However, how different modalities can be optimally fused is still an open question. Based on the above-mentioned study, this thesis aims to improve the multistream framework architecture. More concretely, we investigate how different singlestream architectures impact the multistream framework with a given fusion method, and how different fusion methods contribute to the overall performance of a given multistream framework. As a result, our proposed fusion architecture outperformed all the investigated traditional fusion methods. Along with the best singlestream candidate and few additional training techniques, our final proposed multistream framework obtained a relative gain of 7.3\% mIoU compared to the baseline on the semantic3D point cloud test set, increasing the ranking from 12th to 5th position on the benchmark leaderboard.
APA, Harvard, Vancouver, ISO, and other styles
23

Singh, Vivek Kumar. "Segmentation and classification of multimodal medical images based on generative adversarial learning and convolutional neural networks." Doctoral thesis, Universitat Rovira i Virgili, 2019. http://hdl.handle.net/10803/668445.

Full text
Abstract:
L’objectiu principal d’aquesta tesi és crear un sistema CAD avançat per a qualsevol tipus de modalitat d’imatge mèdica amb altes taxes de sensibilitat i especificitat basades en tècniques d’aprenentatge profund. Més concretament, volem millorar el mètode automàtic de detecció de les regions d’interès (ROI), que són àrees de la imatge que contenen possibles teixits malalts, així com la segmentació de les troballes (delimitació de la frontera) i, en definitiva, una predicció del diagnosi més adequat (classificació). En aquesta tesi ens centrem en diversos camps, que inclouen mamografies i ecografies per diagnosticar un càncer de mama, anàlisi de lesions de la pell en imatges dermoscòpiques i inspecció del fons de la retina per evitar la retinopatia diabètica.
El objetivo principal de esta tesis es crear un sistema CAD avanzado para cualquier tipo de modalidad de imagen médica con altas tasas de sensibilidad y especificidad basadas en técnicas de aprendizaje profundo. Más concretamente, queremos mejorar el método automático de detección de las regiones de interés (ROI), que son áreas de la imagen que contienen posibles tejidos enfermos, así como la segmentación de los hallazgos (delimitación de la frontera) y, en definitiva, una predicción del diagnóstico más adecuado (clasificación). En esta tesis nos centramos en diversos campos, que incluyen mamografías y ecografías para diagnosticar un cáncer de mama, análisis de lesiones de la piel en imágenes dermoscòpiques y inspección del fondo de la retina para evitar la retinopatía diabética
The main aim of this thesis is to create an advanced CAD system for any type of medical image modality with high sensitivity and specificity rates based on deep learning techniques. More specifically, we want to improve the automatic method of detection of Regions of Interest (ROI), which are areas of the image that contain possible ill tissues, as well as segmentation of the findings (delimitation with a boundary), and ultimately, a prediction of a most suitable diagnose (classification). In this thesis, we focus on several topics including mammograms and ultrasound images to diagnose breast cancer, skin lesions analysis in dermoscopic images and retinal fundus images examination to avoid diabetic retinopathy.
APA, Harvard, Vancouver, ISO, and other styles
24

Xu, Hao. "Probabilistic atlas statistical estimation with multimodal datasets and its application to atlas based segmentation." Palaiseau, Ecole polytechnique, 2014. http://pastel.archives-ouvertes.fr/docs/00/96/91/76/PDF/Thesis.pdf.

Full text
Abstract:
Les atlases d'anatomie informatisé jouent un rôle important dans l'analyse d'images médicales. Cependant un atlas se réfère généralement à une image standard ou une moyenne d'image aussi appelé template, qui probablement représente bien d'une population observée, il ne suffit pas pour caractériser la population observée en détail. Un template doit être apprises conjointement avec la variabilité géométrique des formes représentées dans les observations. Ces deux quantités seront par la suite former l'atlas de la population correspondante. La variabilité géométrique est modélisée comme des déformations du template de sorte qu'il s'adapte aux observations. Dans la première partie du travail, nous fournissons un nouveau modèle statistique générative basée sur des templates déformables denses qui représente plusieurs types de tissus observés dans les images médicales. Notre atlas contient à la fois une estimation des templates probabiliste de chaque tissu (appelée classes) et la métrique de déformation. Nous utilisons un algorithme stochastique pour l'estimation de l'atlas probabilistes donné un ensemble de données. Cet atlas est ensuite utilisé pour la méthode de segmentation basée sur l'atlas pour segmenter les nouvelles images. Expériences sont montrées sur les images T1 du cerveau. Les analyses traditionnelles d'imagerie de résonance magnétique fonctionnelle utilisent peu d'informations anatomies. Le recalage des images vers un template est basé sur l'anatomie individuelle et ne tient pas compte des informations fonctionnelles, donc les activations détectées ne se limitent pas à la matière grise. Dans la deuxième partie du travail, on propose un modèle statistique pour estimer un atlas probabiliste de l'IRM fonctionnelle et T1 qui résume à la fois des informations anatomies et fonctionnelles et la variabilité géométrique de la population. Le recalage et la segmentation sont effectuées conjointement pendant l'estimation de l'atlas et l'activité fonctionnelle est limitée à la matière grise, augmenter la précision de l'atlas. Inférer l'abondance des protéines de l'intensité de peptides est l'étape clé dans la protéomique quantitative. La conclusion est nécessairement plus précis quand de nombreux peptides sont pris en compte pour une protéine donnée. Pourtant, l'information apportée par les peptides partagées par différentes protéines est souvent jeté. Dans la troisième partie du travail, nous proposons un système statistique basée sur une modèle hiérarchique à inclure cette information. Notre méthodologie, basée sur une analyse simultanée de tous les peptides quantifiés, gère les erreurs biologiques et techniques ainsi que l'effet des peptides. En outre, nous proposons une mise en œuvre pratique adapté à l'analyse de grandes bases de données. Par rapport à une méthode basée sur l'analyse d'une protéine à la fois (ce qui ne comprend pas les peptides partagés), notre méthodologie s'est révélée être beaucoup plus fiable pour estimer l'abondance de protéines et de tester les changements d'abondance
Computerized anatomical atlases play an important role in medical image analysis. While an atlas usually refers to a standard or mean image also called template, that presumably represents well a given population, it is not enough to characterize the observed population in detail. A template image should be learned jointly with the geometric variability of the shapes represented in the observations. These two quantities will in the sequel form the atlas of the corresponding population. The geometric variability is modelled as deformations of the template image so that it fits the observations. In the first part of the work, we provide a detailed analysis of a new generative statistical model based on dense deformable templates that represents several tissue types observed in medical images. Our atlas contains both an estimation of probability maps of each tissue (called class) and the deformation metric. We use a stochastic algorithm for the estimation of the probabilistic atlas given a dataset. This atlas is then used for atlas-based segmentation method to segment the new images. Experiments are shown on brain T1 MRI datasets. Traditional analyses of Functional Magnetic Resonance Imaging use little anatomical information. The registration of the images to a template is based on the individual anatomy and ignores functional information; subsequently detected activations are not confined to gray matter. In the second part of the work, we propose a statistical model to estimate a probabilistic atlas from functional and T1 MRIs that summarizes both anatomical and functional information and the geometric variability of the population. Registration and Segmentation are performed jointly along the atlas estimation and the functional activity is constrained to the gray matter, increasing the accuracy of the atlas. Inferring protein abundances from peptide intensities is the key step in quantitative proteomics. The inference is necessarily more accurate when many peptides are taken into account for a given protein. Yet, the information brought by the peptides shared by different proteins is commonly discarded. In the third part of the work, we propose a statistical framework based on a hierarchical modeling to include that information. Our methodology, based on a simultaneous analysis of all the quantified peptides, handles the biological and technical errors as well as the peptide effect. In addition, we propose a practical implementation suitable for analyzing large datasets. Compared to a method based on the analysis of one protein at a time (that does not include shared peptides), our methodology proved to be far more reliable for estimating protein abundances and testing abundance changes
APA, Harvard, Vancouver, ISO, and other styles
25

Zhang, Yifei. "Real-time multimodal semantic scene understanding for autonomous UGV navigation." Thesis, Bourgogne Franche-Comté, 2021. http://www.theses.fr/2021UBFCK002.

Full text
Abstract:
Une analyse sémantique robuste des scènes extérieures est difficile en raison des changements environnementaux causés par l'éclairage et les conditions météorologiques variables, ainsi que par la variation des types d'objets rencontrés. Cette thèse étudie le problème de la segmentation sémantique à l'aide de l'apprentissage profond et avec des d'images de différentes modalités. Les images capturées à partir de diverses modalités d'acquisition fournissent des informations complémentaires pour une compréhension complète de la scène. Nous proposons des solutions efficaces pour la segmentation supervisée d'images multimodales, de même que pour la segmentation semi-supervisée de scènes routières en extérieur. Concernant le premier cas, nous avons proposé un réseau de fusion multi-niveaux pour intégrer des images couleur et polarimétriques. Une méthode de fusion centrale a également été introduite pour apprendre de manière adaptative les représentations conjointes des caractéristiques spécifiques aux modalités et réduire l'incertitude du modèle via un post-traitement statistique. Dans le cas de la segmentation semi-supervisée, nous avons d'abord proposé une nouvelle méthode de segmentation basée sur un réseau prototypique, qui utilise l'amélioration des fonctionnalités multi-échelles et un mécanisme d'attention. Ensuite, nous avons étendu les algorithmes centrés sur les images RGB, pour tirer parti des informations de profondeur supplémentaires fournies par les caméras RGBD. Des évaluations empiriques complètes sur différentes bases de données de référence montrent que les algorithmes proposés atteignent des performances supérieures en termes de précision et démontrent le bénéfice de l'emploi de modalités complémentaires pour l'analyse de scènes extérieures dans le cadre de la navigation autonome
Robust semantic scene understanding is challenging due to complex object types, as well as environmental changes caused by varying illumination and weather conditions. This thesis studies the problem of deep semantic segmentation with multimodal image inputs. Multimodal images captured from various sensory modalities provide complementary information for complete scene understanding. We provided effective solutions for fully-supervised multimodal image segmentation and few-shot semantic segmentation of the outdoor road scene. Regarding the former case, we proposed a multi-level fusion network to integrate RGB and polarimetric images. A central fusion framework was also introduced to adaptively learn the joint representations of modality-specific features and reduce model uncertainty via statistical post-processing.In the case of semi-supervised semantic scene understanding, we first proposed a novel few-shot segmentation method based on the prototypical network, which employs multiscale feature enhancement and the attention mechanism. Then we extended the RGB-centric algorithms to take advantage of supplementary depth cues. Comprehensive empirical evaluations on different benchmark datasets demonstrate that all the proposed algorithms achieve superior performance in terms of accuracy as well as demonstrating the effectiveness of complementary modalities for outdoor scene understanding for autonomous navigation
APA, Harvard, Vancouver, ISO, and other styles
26

De, goussencourt Timothée. "Système multimodal de prévisualisation “on set” pour le cinéma." Thesis, Université Grenoble Alpes (ComUE), 2016. http://www.theses.fr/2016GREAT106/document.

Full text
Abstract:
La previz on-set est une étape de prévisualisation qui a lieu directement pendant la phase de tournage d’un film à effets spéciaux. Cette proposition de prévisualisation consiste à montrer au réalisateur une vue assemblée du plan final en temps réel. Le travail présenté dans cette thèse s’intéresse à une étape spécifique de la prévisualisation : le compositing. Cette étape consiste à mélanger plusieurs sources d’images pour composer un plan unique et cohérent. Dans notre cas, il s’agit de mélanger une image de synthèse avec une image issue de la caméra présente sur le plateau de tournage. Les effets spéciaux numériques sont ainsi ajoutés à la prise de vue réelle. L’objectif de cette thèse consiste donc à proposer un système permettant l’ajustement automatique du mélange entre les deux images. La méthode proposée nécessite la mesure de la géométrie de la scène filmée. Pour cette raison, un capteur de profondeur est ajouté à la caméra de tournage. Les données sont relayées à l’ordinateur qui exécute un algorithme permettant de fusionner les données du capteur de profondeur et de la caméra de tournage. Par le biais d’un démonstrateur matériel, nous avons formalisé une solution intégrée dans un moteur de jeux vidéo. Les expérimentations menées montrent dans un premier temps des résultats encourageants pour le compositing en temps réel. Nous avons observé une amélioration des résultats suite à l’introduction de la méthode de segmentation conjointe. La principale force de ce travail réside dans la mise en place du démonstrateur qui nous a permis d’obtenir des algorithmes efficaces dans le domaine de la previz on-set
Previz on-set is a preview step that takes place directly during the shootingphase of a film with special effects. The aim of previz on-set is to show to the film director anassembled view of the final plan in realtime. The work presented in this thesis focuses on aspecific step of the previz : the compositing. This step consists in mixing multiple images tocompose a single and coherent one. In our case, it is to mix computer graphics with an imagefrom the main camera. The objective of this thesis is to propose a system for automaticadjustment of the compositing. The method requires the measurement of the geometry ofthe scene filmed. For this reason, a depth sensor is added to the main camera. The data issent to the computer that executes an algorithm to merge data from depth sensor and themain camera. Through a hardware demonstrator, we formalized an integrated solution in avideo game engine. The experiments gives encouraging results for compositing in real time.Improved results were observed with the introduction of a joint segmentation method usingdepth and color information. The main strength of this work lies in the development of ademonstrator that allowed us to obtain effective algorithms in the field of previz on-set
APA, Harvard, Vancouver, ISO, and other styles
27

Glatz, Andreas. "Characterisation and segmentation of basal ganglia mineralization in normal ageing with multimodal structural MRI." Thesis, University of Edinburgh, 2016. http://hdl.handle.net/1842/22905.

Full text
Abstract:
Iron is the most abundant trace metal in the brain and is essential for many biological processes, such as neurotransmitter synthesis and myelin formation. This thesis investigates small, multifocal hypointensities that are apparent on T2*- weighted (T2*w) MRI in the basal ganglia, where presumably most iron enters the brain via the blood-brain-barrier along the penetrating arteries. These basal ganglia T2*w hypointensities are believed to arise from iron-rich microvascular mineral deposits, which are frequently found in community-dwelling elderly subjects and are associated with age-related cognitive decline. This thesis documents the characteristic spatial distribution and morphology of basal ganglia T2*w hypointensities of 98 community-dwelling, elderly subjects in their seventies, as well as their imaging signatures on T1-weighted (T1w) and T2- weighted (T2w) MRI. A fully automated, novel method is introduced for the segmentation of basal ganglia T2*w hypointensities, which was developed to reduce the high intra- and inter-rater variability associated with current semi-automated segmentation methods and to facilitate the segmentation of these features in other single- and multi-centre studies. This thesis also presents a multi parametric quantitative MRI relaxometry methodology for conventional clinical MRI scanners that was developed and validated to improve the characterisation of brain iron. Lastly, this thesis describes the application of the developed methods in the segmentation of basal ganglia T2*w hypointensities of 243 community-dwelling participants of the Austrian Stroke Prevention Study Family (ASPS-Fam) and their analysis on R2* (=1/T2*) relaxation rate and Larmor frequency shift maps. This work confirms that basal ganglia T2*w hypointensities, especially in the globus pallidus, are potentially MRI markers of microvascular mineralization. Furthermore, the ASPS-Fam results show that basal ganglia mineral deposits mainly consist of paramagnetic particles, which presumably arise from an imbalance in the brain iron homeostasis. Hence, basal ganglia T2*w hypointensities are possibly an indicator of age-related microvascular dysfunction with iron accumulation, which might help to explain the variability of cognitive decline in normal ageing.
APA, Harvard, Vancouver, ISO, and other styles
28

Sundelius, Carl. "Deep Fusion of Imaging Modalities for Semantic Segmentation of Satellite Imagery." Thesis, Linköpings universitet, Datorseende, 2018. http://urn.kb.se/resolve?urn=urn:nbn:se:liu:diva-145193.

Full text
Abstract:
In this report I summarize my master’s thesis work, in which I have investigated different approaches for fusing imaging modalities for semantic segmentation with deep convolutional networks. State-of-the-art methods for semantic segmentation of RGB-images use pre-trained models, which are fine-tuned to learn task-specific deep features. However, the use of pre-trained model weights constrains the model input to images with three channels (e.g. RGB-images). In some applications, e.g. classification of satellite imagery, there are other imaging modalities that can complement the information from the RGB modality and, thus, improve the performance of the classification. In this thesis, semantic segmentation methods designed for RGB images are extended to handle multiple imaging modalities, without compromising on the benefits, that pre-training on RGB datasets offers. In the experiments of this thesis, RGB images from satellites have been fused with normalised difference vegetation index (NDVI) and a digital surface model (DSM). The evaluation shows that the modality fusion can significantly improve the performance of semantic segmentation networks in comparison with a corresponding network with only RGB input. However, the different investigated approaches to fuse the modalities proved to achieve similar performance. The conclusion of the experiments is, that the fusion of imaging modalities is necessary, but the method of fusion has shown to be of less importance.
APA, Harvard, Vancouver, ISO, and other styles
29

Butko, Taras. "Feature selection for multimodal: acoustic event detection." Doctoral thesis, Universitat Politècnica de Catalunya, 2011. http://hdl.handle.net/10803/32176.

Full text
Abstract:
The detection of the Acoustic Events (AEs) naturally produced in a meeting room may help to describe the human and social activity. The automatic description of interactions between humans and environment can be useful for providing: implicit assistance to the people inside the room, context-aware and content-aware information requiring a minimum of human attention or interruptions, support for high-level analysis of the underlying acoustic scene, etc. On the other hand, the recent fast growth of available audio or audiovisual content strongly demands tools for analyzing, indexing, searching and retrieving the available documents. Given an audio document, the first processing step usually is audio segmentation (AS), i.e. the partitioning of the input audio stream into acoustically homogeneous regions which are labelled according to a predefined broad set of classes like speech, music, noise, etc. Acoustic event detection (AED) is the objective of this thesis work. A variety of features coming not only from audio but also from the video modality is proposed to deal with that detection problem in meeting-room and broadcast news domains. Two basic detection approaches are investigated in this work: a joint segmentation and classification using Hidden Markov Models (HMMs) with Gaussian Mixture Densities (GMMs), and a detection-by-classification approach using discriminative Support Vector Machines (SVMs). For the first case, a fast one-pass-training feature selection algorithm is developed in this thesis to select, for each AE class, the subset of multimodal features that shows the best detection rate. AED in meeting-room environments aims at processing the signals collected by distant microphones and video cameras in order to obtain the temporal sequence of (possibly overlapped) AEs that have been produced in the room. When applied to interactive seminars with a certain degree of spontaneity, the detection of acoustic events from only the audio modality alone shows a large amount of errors, which is mostly due to the temporal overlaps of sounds. This thesis includes several novelties regarding the task of multimodal AED. Firstly, the use of video features. Since in the video modality the acoustic sources do not overlap (except for occlusions), the proposed features improve AED in such rather spontaneous scenario recordings. Secondly, the inclusion of acoustic localization features, which, in combination with the usual spectro-temporal audio features, yield a further improvement in recognition rate. Thirdly, the comparison of feature-level and decision-level fusion strategies for the combination of audio and video modalities. In the later case, the system output scores are combined using two statistical approaches: weighted arithmetical mean and fuzzy integral. On the other hand, due to the scarcity of annotated multimodal data, and, in particular, of data with temporal sound overlaps, a new multimodal database with a rich variety of meeting-room AEs has been recorded and manually annotated, and it has been made publicly available for research purposes.
La detecció d'esdeveniments acústics (Acoustic Events -AEs-) que es produeixen naturalment en una sala de reunions pot ajudar a descriure l'activitat humana i social. La descripció automàtica de les interaccions entre els éssers humans i l'entorn pot ser útil per a proporcionar: ajuda implícita a la gent dins de la sala, informació sensible al context i al contingut sense requerir gaire atenció humana ni interrupcions, suport per a l'anàlisi d'alt nivell de l'escena acústica, etc. La detecció i la descripció d'activitat és una funcionalitat clau de les interfícies perceptives que treballen en entorns de comunicació humana com sales de reunions. D'altra banda, el recent creixement ràpid del contingut audiovisual disponible requereix l'existència d'eines per a l'anàlisi, indexació, cerca i recuperació dels documents existents. Donat un document d'àudio, el primer pas de processament acostuma a ser la seva segmentació (Audio Segmentation (AS)), és a dir, la partició de la seqüència d'entrada d'àudio en regions acústiques homogènies que s'etiqueten d'acord amb un conjunt predefinit de classes com parla, música, soroll, etc. De fet, l'AS pot ser vist com un cas particular de la detecció d’esdeveniments acústics, i així es fa en aquesta tesi. La detecció d’esdeveniments acústics (Acoustic Event Detection (AED)) és un dels objectius d'aquesta tesi. Es proposa tot una varietat de característiques que provenen no només de l'àudio, sinó també de la modalitat de vídeo, per fer front al problema de la detecció en dominis de sala de reunions i de difusió de notícies. En aquest treball s'investiguen dos enfocaments bàsics de detecció: 1) la realització conjunta de segmentació i classificació utilitzant models de Markov ocults (Hidden Markov Models (HMMs)) amb models de barreges de gaussianes (Gaussian Mixture Models (GMMs)), i 2) la detecció per classificació utilitzant màquines de vectors suport (Support Vector Machines (SVM)) discriminatives. Per al primer cas, en aquesta tesi es desenvolupa un algorisme de selecció de característiques ràpid d'un sol pas per tal de seleccionar, per a cada AE, el subconjunt de característiques multimodals que aconsegueix la millor taxa de detecció. L'AED en entorns de sales de reunió té com a objectiu processar els senyals recollits per micròfons distants i càmeres de vídeo per tal d'obtenir la seqüència temporal dels (possiblement superposats) esdeveniments acústics que s'han produït a la sala. Quan s'aplica als seminaris interactius amb un cert grau d'espontaneïtat, la detecció d'esdeveniments acústics a partir de només la modalitat d'àudio mostra una gran quantitat d'errors, que és sobretot a causa de la superposició temporal dels sons. Aquesta tesi inclou diverses contribucions pel que fa a la tasca d'AED multimodal. En primer lloc, l'ús de característiques de vídeo. Ja que en la modalitat de vídeo les fonts acústiques no se superposen (exceptuant les oclusions), les característiques proposades Resum iv milloren la detecció en els enregistraments en escenaris de caire espontani. En segon lloc, la inclusió de característiques de localització acústica, que, en combinació amb les característiques habituals d'àudio espectrotemporals, signifiquen nova millora en la taxa de reconeixement. En tercer lloc, la comparació d'estratègies de fusió a nivell de característiques i a nivell de decisions, per a la utilització combinada de les modalitats d'àudio i vídeo. En el darrer cas, les puntuacions de sortida del sistema es combinen fent ús de dos mètodes estadístics: la mitjana aritmètica ponderada i la integral difusa. D'altra banda, a causa de l'escassetat de dades multimodals anotades, i, en particular, de dades amb superposició temporal de sons, s'ha gravat i anotat manualment una nova base de dades multimodal amb una rica varietat d'AEs de sala de reunions, i s'ha posat a disposició pública per a finalitats d'investigació. Per a la segmentació d'àudio en el domini de difusió de notícies, es proposa una arquitectura jeràrquica de sistema, que agrupa apropiadament un conjunt de detectors, cada un dels quals correspon a una de les classes acústiques d'interès. S'han desenvolupat dos sistemes diferents de SA per a dues bases de dades de difusió de notícies: la primera correspon a gravacions d'àudio del programa de debat Àgora del canal de televisió català TV3, i el segon inclou diversos segments d'àudio del canal de televisió català 3/24 de difusió de notícies. La sortida del primer sistema es va utilitzar com a primera etapa dels sistemes de traducció automàtica i de subtitulat del projecte Tecnoparla, un projecte finançat pel govern de la Generalitat en el que es desenvoluparen diverses tecnologies de la parla per extreure tota la informació possible del senyal d'àudio. El segon sistema d'AS, que és un sistema de detecció jeràrquica basat en HMM-GMM amb selecció de característiques, ha obtingut resultats competitius en l'avaluació de segmentació d'àudio Albayzín2010. Per acabar, val la pena esmentar alguns resultats col·laterals d’aquesta tesi. L’autor ha sigut responsable de l'organització de l'avaluació de sistemes de segmentació d'àudio dins de la campanya Albayzín-2010 abans esmentada. S'han especificat les classes d’esdeveniments, les bases de dades, la mètrica i els protocols d'avaluació utilitzats, i s'ha realitzat una anàlisi posterior dels sistemes i els resultats presentats pels vuit grups de recerca participants, provinents d'universitats espanyoles i portugueses. A més a més, s'ha implementat en la sala multimodal de la UPC un sistema de detecció d'esdeveniments acústics per a dues fonts simultànies, basat en HMM-GMM, i funcionant en temps real, per finalitats de test i demostració.
APA, Harvard, Vancouver, ISO, and other styles
30

Xu, Hao. "Estimation statistique d'atlas probabiliste avec les données multimodales et son application à la segmentation basée sur l'atlas." Phd thesis, Ecole Polytechnique X, 2014. http://pastel.archives-ouvertes.fr/pastel-00969176.

Full text
Abstract:
Les atlases d'anatomie informatisé jouent un rôle important dans l'analyse d'images médicales. Cependant un atlas se réfère généralement à une image standard ou une moyenne d'image aussi appelé template, qui probablement représente bien d'une population observée, il ne suffit pas pour caractériser la population observée en détail. Un template doit être apprises conjointement avec la variabilité géométrique des formes représentées dans les observations. Ces deux quantités seront par la suite former l'atlas de la population correspondante. La variabilité géométrique est modélisée comme des déformations du template de sorte qu'il s'adapte aux observations. Dans la première partie du travail, nous fournissons un nouveau modèle statistique générative basée sur des templates déformables denses qui représente plusieurs types de tissus observés dans les images médicales. Notre atlas contient à la fois une estimation des templates probabiliste de chaque tissu (appelée classes) et la métrique de déformation. Nous utilisons un algorithme stochastique pour l'estimation de l'atlas probabilistes donné un ensemble de données. Cet atlas est ensuite utilisé pour la méthode de segmentation basée sur l'atlas pour segmenter les nouvelles images. Expériences sont montrées sur les images T1 du cerveau. Les analyses traditionnelles d'imagerie de résonance magnétique fonctionnelle utilisent peu d'informations anatomies. Le recalage des images vers un template est basé sur l'anatomie individuelle et ne tient pas compte des informations fonctionnelles, donc les activations détectées ne se limitent pas à la matière grise. Dans la deuxième partie du travail, on propose un modèle statistique pour estimer un atlas probabiliste de l'IRM fonctionnelle et T1 qui résume à la fois des informations anatomies et fonctionnelles et la variabilité géométrique de la population. Le recalage et la segmentation sont effectuées conjointement pendant l'estimation de l'atlas et l'activité fonctionnelle est limitée à la matière grise, augmenter la précision de l'atlas. Inférer l'abondance des protéines de l'intensité de peptides est l'étape clé dans la protéomique quantitative. La conclusion est nécessairement plus précis quand de nombreux peptides sont pris en compte pour une protéine donnée. Pourtant, l'information apportée par les peptides partagées par différentes protéines est souvent jeté. Dans la troisième partie du travail, nous proposons un système statistique basée sur une modèle hiérarchique à inclure cette information. Notre méthodologie, basée sur une analyse simultanée de tous les peptides quantifiés, gère les erreurs biologiques et techniques ainsi que l'effet des peptides. En outre, nous proposons une mise en œuvre pratique adapté à l'analyse de grandes bases de données. Par rapport à une méthode basée sur l'analyse d'une protéine à la fois (ce qui ne comprend pas les peptides partagés), notre méthodologie s'est révélée être beaucoup plus fiable pour estimer l'abondance de protéines et de tester les changements d'abondance.
APA, Harvard, Vancouver, ISO, and other styles
31

Al, Madi Naser S. "A STUDY OF LEARNING PERFORMANCE AND COGNITIVE ACTIVITY DURING MULTIMODAL COMPREHENSION USING SEGMENTATION-INTEGRATION MODEL AND EEG." Kent State University / OhioLINK, 2014. http://rave.ohiolink.edu/etdc/view?acc_num=kent1416868268.

Full text
APA, Harvard, Vancouver, ISO, and other styles
32

Lilja, Harald. "Semantic Scene Segmentation using RGB-D & LRF fusion." Thesis, Högskolan i Halmstad, CAISR Centrum för tillämpade intelligenta system (IS-lab), 2020. http://urn.kb.se/resolve?urn=urn:nbn:se:hh:diva-42239.

Full text
Abstract:
In the field of robotics and autonomous vehicles, the use of RGB-D data and LiDAR sensors is a popular practice for applications such as SLAM[14], object classification[19] and scene understanding[5]. This thesis explores the problem of semantic segmentation using deep multimodal fusion of LRF and depth data. Two data set consisting of 1080 and 108 data points from two scenes is created and manually labeled in 2D space and transferred to 1D using a proposed label transfer method utilizing hierarchical clustering. The data set is used to train and validate the suggested method for segmentation using a proposed dual encoder-decoder network based on SalsaNet [1] with gradual fusion in the decoder. Applying the suggested method yielded an improvement in the scenario of an unseen circuit when compared to uni-modal segmentation using depth, RGB, laser, and a naive combination of RGB-D data. A suggestion of feature extraction in the form of PCA or stacked auto-encoders is suggested as a further improvement for this type of fusion. The source code and data set are made publicly available at https://github.com/Anguse/salsa_fusion.
APA, Harvard, Vancouver, ISO, and other styles
33

Hu, Zhihong. "Multimodal 3-D segmentation of optic nerve head structures from spectral domain Oct volumes and color fundus photographs." Diss., University of Iowa, 2011. https://ir.uiowa.edu/etd/3470.

Full text
Abstract:
Currently available methods for managing glaucoma, e.g. the planimetry on stereo disc photographs, involve a subjective component either by the patient or examiner. In addition, a few structures may overlap together on the essential 2-D images, which can decrease reproducibility. Spectral domain optical coherence tomography (SD-OCT) provides a 3-D, cross-sectional, microscale depiction of biological tissues. Given the wealth of volumetric information at microscale resolution available with SD-OCT, it is likely that better parameters can be obtained for measuring glaucoma changes that move beyond what is possible using fundus photography etc. The neural canal opening (NCO) is a 3-D single anatomic structure in SD-OCT volumes. It is proposed as a basis for a stable reference plane from which various optic nerve morphometric parameters can be derived. The overall aim of this Ph.D. project is to develop a framework to segment the 3-D NCO and its related structure retinal vessels using information from SD-OCT volumes and/or fundus photographs to aid the management of glaucoma changes. Based on the mutual positional relationship of the NCO and vessels, a multimodal 3-D scale-learning-based framework is developed to iteratively identify them in SD-OCT volumes by incorporating each other's pre-identified positional information. The algorithm first applies a 3-D wavelet-transform-learning-based layer segmentation and pre-segments the NCO using graph search. To aid a better NCO detection, the vessels are identified either using a SD-OCT segmentation approach incorporating the presegmented NCO positional information to the vessel classification or a multimodal approach combining the complementary features from SD-OCT volumes and fundus photographs (or a registered-fundus approach based on the original fundus vessel segmentation). The obtained vessel positional information is then used to help enhance the NCO segmentation by incorporating that to the cost function of graph search. Note that the 3-D wavelet transform via lifting scheme has been used to remove high frequency noises and extract texture properties in SD-OCT volumes etc. The graph search has been used for finding the optimal solution of 3-D multiple surfaces using edge and additionally regional information. In this work, the use of the 3-D wavelet-transform-learning-based cost function for the graph search is a further extension of the 3-D wavelet transform and graph search. The major contributions of this work include: 1) extending the 3-D graph theoretic segmentation to the use of 3-D scale-learning-based cost function, 2) developing a graph theoretic approach for segmenting the NCO in SD-OCT volumes, 3) developing a 3-D wavelet-transform-learning-based graph theoretic approach for segmenting the NCO in SD-OCT volumes by iteratively utilizing the pre-identified NCO and vessel positional information (from 4 or 5), 4) developing a vessel classification approach in SD-OCT volumes by incorporating the pre-segmented NCO positional information to the vessel classification to suppress the NCO false positives, and 5) developing a multimodal concurrent classification and a registered-fundus approach for better identifying vessels in SD-OCT volumes using additional fundus information.
APA, Harvard, Vancouver, ISO, and other styles
34

DUBOZ, AMANDINE. "The intention to use real-time multimodal information to change travel behaviour. The use of psychosocial variables for the market segmentation." Doctoral thesis, Politecnico di Torino, 2018. http://hdl.handle.net/11583/2711201.

Full text
Abstract:
Advanced Traveller Information Systems (ATIS) have been developed to encourage citizens to make better choices by making their travel more efficient and reliable. Another goal is to make mobility more sustainable. More precisely, the deployment of ATIS, especially multimodal real-time information systems, aims to induce a modal shift from the car to public transports (PT) or soft modes. This Ph.D. thesis assesses the impact on travel behaviour of an ATIS, TUeTO, developed for the city of Torino within the European project Opticities. To reach this objective, a mixed method analysis has been adopted, allowing the use of both quantitative and qualitative data gathered before and after the test of TUeTO. Psychosocial constructs were defined to segment the market, together with socioeconomic and travel characteristics, to understand which variables can induce a change of travel habits towards sustainable mobility. To this end, an exploratory factor analysis (EFA) was conducted on two questionnaires (one designed for the ex-ante phase of the Opticities project and the second designed ad hoc within the thesis work) to find psychosocial constructs related to the sample of 76 participants out of the 150 recruited within the project. A cluster analysis was subsequently performed to define different categories of people according to their willingness to use real-time multimodal information system to change travel behaviour. In addition, the use of qualitative data gathered through focus group discussions before and after the test of the app made possible to complete statistical analysis and investigate the cognitive mechanisms related to the use of ATIS. The textual analysis was made to verify the coherence of the clusters and gain insight regarding the issues related to the use of ATIS. The innovative methodology of this thesis using both qualitative and quantitative data had for aim to validate, determine, and characterize the clusters created thanks to the cluster analysis method. The quantitative data from the cluster analysis defined reliable categories of people willing to use ATIS to change travel behaviour after the test period, while the use of qualitative data was successful in deepening the understandings of the issue, although it did not validate all clusters created so far. Segmentation better characterized the attitudes of people towards the use of ATIS. In contrast to the literature, the statistical analysis showed that people who had the intention to use TUeTO before the test, were not willing to change their travel behaviour after. On the other hand, although it was expected that people willing to use an ATIS would be mainly car users, the analysis pointed out that public transport users were more interested in using the information. However, the shift of mode from the car to more sustainable alternatives might be limited since a small amount of people willing to change travel behaviour for the most frequent trip use a car. Content analysis opened a new perspective regarding the deployment of ATIS as a policy to change travel behaviours. While some participants pointed out the need to improve the reliability of TUeTO, others would have preferred an improvement of the public transport infrastructure either along with or instead of the deployment of the ATIS.
APA, Harvard, Vancouver, ISO, and other styles
35

Lecesne, Erwan. "Planification et assistance par fusion d'images multimodales pour l'optimisation de gestes de réparation tissulaire en insuffisance cardiaque." Electronic Thesis or Diss., Université de Rennes (2023-....), 2024. http://www.theses.fr/2024URENS001.

Full text
Abstract:
Les travaux de cette thèse s’inscrivent dans le contexte clinique visant à optimiser le geste lors des interventions endoventriculaires cardiaques. Cette recherche se concentre principalement sur le guidage en vue du diagnostic et du traitement des affections endoventriculaires à l’aide de cathéters. L’intervention considérée est la biopsie endoventriculaire utilisée pour diagnostiquer les patients atteints de sarcoïdose cardiaque. En effet, le cathéter doit être guidé avec précision vers la zone de fibrose. Cependant, l’absence d’informations visuelles précises sur la localisation de la fibrose pendant l’intervention accroît le risque de faux négatifs pour les échantillons prélevés. De plus, il existe un risque de complications telles que la perforation myocardique, également appelée tamponnade cardiaque. Les objectifs de cette thèse sont articulés en deux parties distinctes :La première partie, préopératoire, consiste à élaborer un modèle 3D du cœur, englobant le ventricule gauche, le ventricule droit et le myocarde. Ce modèle est construit à partir de segmentations d’images d’IRM, notamment des séquences ciné pour les structures principales et LGE pour localiser les zones de fibrose. Les méthodes de segmentation développées reposent sur l’apprentissage profond, et la méthode de segmentation de la fibrose fait l’objet d’une publication en cours. La seconde partie, peropératoire, vise à assis- ter la procédure en fournissant des informa- tions précises sur l’anatomie et la localisation de la zone fibrosée. Cela permet d’optimiser le positionnement du cathéter en périphérie de cette zone fibrosée, contribuant ainsi à améliorer la précision et l’efficacité de l’intervention. Enfin, l’ensemble de la chaîne de traitement a été expérimenté avec succès sur trois patients, procurant ainsi un retour d’expérience du clinicien. Ces avancées visent à réduire les risques liés à la biopsie endoventriculaire et à accroître la précision du diagnostic de la sarcoïdose cardiaque, ouvrant ainsi la voie à des progrès significatifs dans la prise en charge de cette pathologie
The research in this thesis is situated in the clinical context aimed at optimizing procedures during cardiac endoventricular interventions. This study primarily focuses on guidance for the diagnosis and treatment of endoventricular conditions using catheters. The specific intervention under consideration is the endoventricular biopsy used for diagnosing patients with cardiac sarcoidosis. Indeed, the catheter must be precisely guided to the fibrotic zone. However, the lack of precise visual information on the location of fibrosis during the intervention increases the risk of false negatives for the collected samples. Additionally, there is a risk of complications such as myocardial perforation, also known as cardiac tamponade. The objectives of this thesis are articulated in two distinct parts: The first part, preoperative, involves developing a 3D model of the heart, encompassing the left ventricle, right ventricle, and myocardium. This model is constructed from segmentations of MRI images, including cine sequences for the main structures and late gadolinium-enhanced (LGE) images to locate fibrotic zones. The segmentation methods developed rely on deep learning, and the fibrosis segmentation method is the subject of an ongoing publication. The second part, intraoperative, aims to assist the procedure by providing precise information about the anatomy and location of the fibrotic zone. This optimizes the positioning of the catheter on the periphery of this fibrotic zone, thereby contributing to improving the precision and efficiency of the intervention. Finally, the entire processing pipeline has been successfully tested on three patients, providing valuable feedback for clinicians. These advancements aim to reduce the risks associated with endoventricular biopsy and enhance the precision of cardiac sarcoidosis diagnosis, paving the way for significant progress in the management of this pathology
APA, Harvard, Vancouver, ISO, and other styles
36

Wojak, Julien. "Analyse d'images multimodales TEP-TDM du thorax : Application à l'oncologie : segmentation de tumeurs, d'organes à risque et suivi longitudinal pour la radiothérapie." Paris, Télécom ParisTech, 2010. http://pastel.archives-ouvertes.fr/pastel-00567100.

Full text
Abstract:
En oncologie du thorax, les modalités d'imagerie de tomodensitométrie (TDM) et d'imagerie d'émission de positons (TEP) sont souvent utilisées conjointement, pour le diagnostic ou pour l'élaboration de plans de traitement. En effet, le développement d'appareils d'acquisition combinant ces deux modalités permet leur utilisation conjointe possible en routine clinique sans une difficulté préalable de recalage. Le premier objectif est de proposer des méthodes de segmentation automatiques de tumeurs ou ganglions à l'aide des deux modalités. La modalité TDM étant anatomiquement plus précise les segmentation sont réalisées dans cette modalité en utilisant l'imagerie TEP comme guide pour la localisation de la tumeur. Les organes à risque, devant être protégés des irradiations, nécessitent aussi d'être contourés. Un autre objectif est de proposer des algorithmes permettant leur segmentation. Ils s'appuient sur une connaissance a priori forte des distributions d'intensités des différents organes dans les images TDM et de connaissances a priori de formes des organes à segmenter. Un dernier objectif est de proposer une méthodologie pour la segmentation de tumeurs dans le cadre du suivi longitudinal des patients dans des images préalablement recalées. L'ensemble des méthodes de segmentation a été testé sur différents jeux de données, et lorsque des segmentations manuelles expertes sont disponibles, des résultats quantitatifs sont présentés, montrant l'intérêt des approches proposées et la précision des résultats obtenus
In oncological thoracic imaging, computerized tomography (CT) and positron emission tomography (PET) are widely used jointly, for diagnosis or treatment planing. The development of combined scanners enables the acquisition of pairs of CT-PET volumes, allowing their joint exploitation in clinical routine, without the prerequisite for complex registration. One goal of this thesis work was to propose a segmentation method jointly exploiting PET and CT image information. The proposed methodology therefore focuses on a detailed segmentation of the CT images, using PET information to guide the tumor segmentation. The framework of variational segmentation methods is used to design our algorithms and the specific constraints based on PET information. In addition to target structures for radiotherapy (tumors, nodules), organs at risk which need to be preserved from radiations, must be segmented. An additional goal of this thesis is to provide segmentation methods for these organs. The methods rely on strong a priori knowledge on the non-parametric intensity distributions and on the shapes of the different organs. A final goal of the thesis is to propose a methodological framework for the segmentation of tumors in the context of longitudinal follow up of patients with registered images. The proposed segmentation methods were tested on multiple data sets. When manual tracing is available, quantitive comparisons of the segmentations are presented, demonstrating the performance and accuracy of the proposed segmentation framework
APA, Harvard, Vancouver, ISO, and other styles
37

Toumoulin, Christine. "Traitement d'images multimodalite dans un reseau d'imagerie medicale : application a la segmentation d'images de radiologie numerique et de resonance magnetique." Rennes 1, 1987. http://www.theses.fr/1987REN10131.

Full text
Abstract:
Implantation de primitives morphologie mathematique dans un processeur haut de gamme pour le traitement d'images provenant de differentes sources d'imagerie medicales (radiologie numerique, irm, scanner). Segmentation d'images angiographique et etude preliminaire de la segmentation des gyricerebraux observables en irm
APA, Harvard, Vancouver, ISO, and other styles
38

Daul, Christian. "Segmentation, recalage et reconstruction 3D de données.Traitement d'images médicales et industrielles." Habilitation à diriger des recherches, Institut National Polytechnique de Lorraine - INPL, 2008. http://tel.archives-ouvertes.fr/tel-00326078.

Full text
Abstract:
Le travail de recherche relaté dans ce manuscrit présente mes activités en traitement d'images que j'ai menées successivement dans trois organismes, à savoir le Laboratoire des Sciences de l'Image, de l'Informatique et de la Télédétection (LSIIT, UMR CNRS/Université Louis Pasteur de Strasbourg), l'Institut für Techno- und Wirtschaftsmathematik'' (Fraunhofer Institut, Kaiserslautern, Allemagne) et le Centre de Recherche en Automatique de Nancy (CRAN, UMR CNRS/Nancy Université). D'un point de vue scientifique, mes principales activités en traitement d'images concernent la segmentation d'images dont le contenu, relativement complexe, requiert des algorithmes utilisant des connaissances a priori liées aux objets à segmenter (contours actifs, méthode s'inspirant de la transformée de Hough. Le recalage de donnée 2D ou 3D et monomodales ou multimodales est un autre aspect scientifique caractérisant le travail décrit ici. Ces thèmes de recherche, ainsi que des méthodes de reconstruction et/ou de superposition de données 3D ont conduit à des solutions originales dans le cadre de problèmes industriels (reconstruction 3D de pièces manufacturées pour une mesure dimensionnelle et classification de surfaces en fonction de leur teinte et texture) ou médicaux (diagnostic précoce du cancer du sein via la reconstruction du foyer de microcalcifications, positionnement de patients en radiothérapie intra crânienne par recalage 3D multimodal, aide au diagnostic de maladies cardio-vasculaires par la superposition de données multimodales et détection du cancer de la vessie par mosaïquage d'images).
APA, Harvard, Vancouver, ISO, and other styles
39

Miri, Mohammad Saleh. "A multimodal machine-learning graph-based approach for segmenting glaucomatous optic nerve head structures from SD-OCT volumes and fundus photographs." Diss., University of Iowa, 2016. https://ir.uiowa.edu/etd/5574.

Full text
Abstract:
Glaucoma is the second leading cause of blindness worldwide. The clinical standard for monitoring the functional deficits in the retina that are caused by glaucoma is the visual field test. In addition to monitoring the functional loss, evaluating the disease-related structural changes in the human retina also helps with diagnosis and management of this progressive disease. The characteristic changes of retinal structures such as the optic nerve head (ONH) are monitored utilizing imaging modalities such as color (stereo) fundus photography and, more recently, spectral-domain optical coherence tomography (SD-OCT). With the inherent subjectivity and time required for manually segmenting retinal structures, there has been a great interest in automated approaches. Since both fundus and SD-OCT images are often acquired for the assessment of glaucoma, the automated segmentation approaches can benefit from combining the multimodal complementary information from both sources. The goal of the current work is to automatically segment the retinal structures and extract the proper parameters of the optic nerve head related to the diagnosis and management of glaucoma. The structural parameters include the cup-to-disc ratio (CDR) which is a 2D parameter and is obtainable from both fundus and SD-OCT modalities. Bruch's membrane opening-minimum rim width (BMO-MRW) is a recent 3D structural parameter that is obtainable from the SD-OCT modality only. We propose to use the complementary information from both fundus and SD-OCT modalities in order to enhance the segmentation of structures of interest. In order to enable combining information from different modalities, a feature-based registration method is proposed for aligning the fundus and OCT images. In addition, our goal is to incorporate the machine-learning techniques into the graph-theoretic approach that is used for segmenting the structures of interest. Thus, the major contributions of this work include: 1) use of complementary information from SD-OCT and fundus images for segmenting the optic disc and cup boundaries in both modalities, 2) identifying the extent that accounting for the presence of externally oblique border tissue and retinal vessels in rim-width-based parameters affects structure-structure correlations, 3) designing a feature-based registration approach for registering multimodal images of the retina, and 4) developing a multimodal graph-based approach to segment the optic nerve head (ONH) structures such as Internal Limiting Membrane (ILM) surface and Bruch's membrane surface's opening.
APA, Harvard, Vancouver, ISO, and other styles
40

Bosc, Marcel. "Contribution à la détection de changements dans des séquences IRM 3D multimodales." Phd thesis, Université Louis Pasteur - Strasbourg I, 2003. http://tel.archives-ouvertes.fr/tel-00005163.

Full text
Abstract:
L'imagerie médicale a profondément influencé à la fois la recherche médicale et la pratique clinique. Elle est aujourd'hui incontournable aussi bien pour l'établissement du diagnostic que pour la mise en place et le suivi d'un traitement thérapeutique. Elle fournit un volume croissant de données tridimensionnelles provenant de modalités d'acquisition différentes (IRM, scanner-X, médecine nucléaire, échographie). Ce volume croissant de données rend délicate et laborieuse la tâche d'interprétation par un expert. Le traitement d'images est un outil permettant une automatisation des tâches et va assister l'expert aussi bien dans l'analyse qualitative que quantitative des images. Dans ce mémoire, nous proposons des techniques automatiques de détection de changements dans des séquences d'images IRM cérébrales. Nous nous intéressons plus particulièrement aux changements d'intensité localisés survenant lors d'évolutions pathologiques telles que les évolutions de lésions en sclérose en plaques (SEP). Les applications médicales des techniques développées ici sont nombreuses: aide au diagnostic, suivi à long terme de l'évolution d'une pathologie, évaluation de l'efficacité thérapeutique d'un médicament, aide à la prise de décision en vue d'une intervention chirurgicale. Ce travail de recherche a été mené en étroite collaboration entre le LSIIT (ULP/UMR CNRS 7005) et l'Institut de Physique Biologique (ULP-Hôpitaux Universitaires / UMR CNRS 7004), au sein de l'équipe-projet multi-laboratoires "Imagerie et Robotique Médicale et Chirurgicale" (EPML IRMC). Il a été soutenu par la Ligue Française Contre la Sclérose En Plaques (LFSEP), la société SERONO et la région Alsace. La détection automatique et fiable de changements interimages rencontre d'importantes difficultés rendant impossible la comparaison directe d'images acquises successivement. La position des patients dans l'imageur n'est jamais identique et les paramètres d'acquisition peuvent varier sensiblement entre chaque examen, entraînant, entre autres, des modifications de contraste. La définition même de ce qui doit être détecté est souvent subjective. Dans le cadre spécifique de la détection de changements d'intensité de lésions, des déformations globales de structures anatomiques, telle que l'atrophie cérébrale, peuvent également perturber la comparaison directe des images. Le travail présenté dans cette thèse est centré sur le développement d'outils de traitement d'images permettant de décider quels changements sont statistiquement significatifs ou non. Lorsque l'expert détermine visuellement des changements, il utilise des connaissances a priori, implicites, de haut niveau qui lui permettent de corriger certaines erreurs d'acquisition. Ainsi, il peut compenser visuellement des erreurs de repositionnement et utiliser ses connaissances anatomiques propres pour identifier et rejeter certains artefacts. Nous développons donc ici, des techniques automatiques d'identification et de correction des principaux artefacts (positionnement, déformations, variations d'intensité ...) et nous proposons une technique originale de segmentation du cortex, apportant les informations anatomiques permettant l'amélioration de la détection automatique. Les techniques de traitement d'images proposées ici ont été développées pour l'IRM cérébrale. Cependant, elles sont suffisamment générales pour s'appliquer à d'autres domaines. Notre système de détection de changements a été évalué dans le cadre de l'étude de l'évolution de lésions de sclérose en plaques. Ses performances ont été déterminées sur une grande base d'images multimodales (plus de 200 images FLAIR, RARE et GE3D) de taille $128^3$. L'évaluation a été faite à l'aide d'un protocole impliquant deux experts (neurologues) et utilisant une analyse statistique de type COR Le système automatique a été jugé plus performant que l'expert humain. Dans la première partie de ce manuscrit, nous présentons tout d'abord les éléments d'imagerie IRM et les aspects médicaux nécessaires à la compréhension de l'ensemble de ce travail. Nous décrivons les modalités d'acquisition IRM et les artefacts associés. Cette étape est importante pour la compréhension des imperfections pouvant apparaître et leur correction. Nous présentons ensuite des éléments sur l'anatomie cérébrale et nous décrivons l'apparence prise les différentes structures cérébrales dans les trois modalités IRM considérées. Puis, nous terminons par les pathologies cérébrales, leurs évolutions, et leur aspect en IRM. Les objectifs et les limites de notre approche sont situés par rapport à ce contexte applicatif. Dans une deuxième partie nous décrivons une approche nouvelle de segmentation sous-voxel. Pour décider de la pertinence d'un changement observé, l'expert utilise des connaissances anatomiques. Dans notre système de détection automatique, ces connaissances sont obtenues en segmentant l'image du cerveau. La méthode de segmentation proposée est basée sur l'évolution d'une image de labels de très haute résolution. L'évolution se fait sous l'influence de contraintes statistiques multiples, exprimées dans un cadre de minimisation d'énergie. L'évolution de l'image de labels n'ayant lieu qu'à la frontière entre régions, notre approche est comparable à un système d'évolution de surfaces. Afin de s'adapter aux spécificités de chaque région cérébrale, les contraintes sont paramétrées à l'aide d'un atlas. Celui-ci, composé d'une image de référence et d'images de paramètres, est plaqué sur l'image à segmenter à l'aide d'un recalage déformable multi-échelles. Les contraintes sont classées en deux catégories: les contraintes image (attache aux données) et le modèle a priori. Plusieurs contraintes image, opérant simultanément à des échelles différentes, sont employées. Elles utilisent une description rigoureuse du processus d'acquisition, permettant ainsi d'atteindre à la fois une précision sous-voxel et une convergence globale (à grande échelle). Le modèle a priori est également composé de plusieurs contraintes : une contrainte de distribution relative qui donne la probabilité d'observer un label à une distance donnée d'un autre label et une contrainte d'épaisseur. Notre approche permet d'obtenir une segmentation de haute résolution à partir d'images IRM pouvant être de résolution inférieure. La performance du système de segmentation a été évaluée sur des images simulées et testée sur des images réelles. La troisième partie présente l'ensemble de la chaîne de traitements conduisant à la détection de changements, ainsi que le protocole d'évaluation et les résultats. La chaîne de traitements est constituée d'une première étape de repositionnement et de correction des déformations. Toutes les images de la base sont alignées sur des références soigneusement choisies, d'abord à l'aide d'une méthode de recalage affine itératif robuste, puis à l'aide de recalage déformable. Au cours de la deuxième étape, les deux images à comparer subissent une correction d'intensité non-linéaire ainsi qu'une élimination d'erreurs résiduelles. La méthode de correction d'intensité que nous proposons permet d'établir une fonction de transfert d'intensité non-linéaire en optimisant un critère simple s'appuyant sur des informations de l'histogramme conjoint. Finalement, au cours de la dernière étape, une approche de détection statistique multimodale permet de décider quels changements sont significatifs. Les connaissances anatomiques fournies par la segmentation sont utilisées pour éliminer certaines détections aberrantes. L'ensemble de ces traitements est appliqué de manière entièrement automatique sur une base de plus de 200 images, de modalités différentes, démontrant ainsi la fiabilité des traitements. La validation du système a été menée à l'aide d'un protocole d'évaluation comprenant deux experts (neurologues). Le premier expert ainsi que le système automatique ont procédé indépendamment à un même travail de détection (l'expert opérant manuellement). Le second expert fait ensuite office d'arbitre pour comparer les résultats des deux procédés. L'analyse COR permet une vue synthétique de la performance du détecteur en donnant la probabilité de détection en fonction du nombre de fausses alarmes. Dans un cadre applicatif, les modifications détectées par le système automatique sont ordonnées par vraisemblance décroissante et présentées au neurologue dans un système de visualisation interactif. Ceci permet au médecin de conserver la décision finale, tout en parcourant efficacement et très rapidement les modifications détectées. En annexe nous proposons quelques réflexions sur l'importance du développement logiciel et de sa diffusion dans la recherche en traitement d'images. Nous présentons ensuite ImLib3D, une librairie C++ dédiée à la recherche en traitement d'images volumiques, que nous avons développée dans le cadre de cette recherche. ImLib3D propose à la fois un système de visualisation séparé et une librairie soigneusement conçue à l'aide d'une méthodologie orientée objet et utilisant des concepts modernes s'inspirant de la librairie standard du C++. L'objectif, dans la conception, a été de créer une librairie simple à utiliser par le chercheur, considéré comme le public cible. ImLib3D est distribuée librement (Open Source) et est placée dans un cadre de développement distribué coopératif (sourceforge.net). En conclusion, nous avons élaboré un système complet et opérationnel de détection de changements dans lequel nous avons systématiquement analysé et traité les principaux artefacts gênant la détection.
APA, Harvard, Vancouver, ISO, and other styles
41

Hamadeh, Mohamad Ali. "Une approche unifiée pour la segmentation et la mise en correspondance 3D/2D d'images multimodales : application à l'étude cinématique 3D de la colonne vertébrale." Grenoble INPG, 1997. http://www.theses.fr/1997INPG0035.

Full text
Abstract:
Dans cette these nous proposons une approche unifiee pour la mise en correspondance 3d/2d entre le modele surfacique 3d d'un objet et deux projections radiographiques 2d de cet objet. Il s'agit de trouver la transformation rigide 3d entre le modele de l'objet defini dans le referentiel r#m#o#d#e#l et les donnees radiographiques definies dans le referentiel du systeme d'imagerie radiographique r#s#e#n#s#o#r en tenant compte de la dualite entre mise en correspondance et segmentation dans un systeme de vision a base de modeles. Apres une presentation des diverses etapes de traitement necessaires pour realiser un tel systeme : calibrage du dispositif d'imagerie, segmentation des contours de l'objet, et l'elaboration d'une strategie de minimisation de distance entre modele et donnees, nous presentons un algorithme de mise en correspondance 3d/2d base sur une modelisation mecanique et qui tient compte de la specificite des images radiographiques, a savoir la presence des points du contour interne de l'objet sur les images segmentees. Une approche unifiee est ensuite proposee. Elle permet une extraction automatique des points de contour de l'objet d'interet en associant une credibilite a chaque pixel de l'image. Cette credibilite traduit la probabilite pour un pixel d'etre un element du contour de l'objet d'interet et depend des caracteristiques propres du pixel (gradient, laplacien, etiquette). Elle depend aussi de l'estimation d'une position initiale de l'objet dans le referentiel d'imagerie radiographique. Cette estimation est realisee par une mise en correspondance entre reperes anatomiques apparies sur le modele 3d et sur les radiographies 2d. Les resultats de validation de cette approche sont egalement presentees sur des donnees radiographiques reelles. Enfin une application clinique de la mise en correspondance 3d/2d pour l'etude cinematique 3d de la colonne vertebrale est presentee avec les premiers resultats obtenus sur fantome.
APA, Harvard, Vancouver, ISO, and other styles
42

Tobón, Gómez Catalina. "Three-dimensional statistical shape models for multimodal cardiac image analysis." Doctoral thesis, Universitat Pompeu Fabra, 2011. http://hdl.handle.net/10803/37473.

Full text
Abstract:
Las enfermedades cardiovasculares (ECVs) son la principal causa de mortalidad en el mundo Occidental. El interés de prevenir y tratar las ECVs ha desencadenado un rápido desarrollo de los sistemas de adquisición de imágenes médicas. Por este motivo, la cantidad de datos de imagen recolectados en las instituciones de salud se ha incrementado considerablemente. Este hecho ha aumentado la necesidad de herramientas automatizadas para dar soporte al diagnóstico, mediante una interpretación de imagen confiable y reproducible. La tarea de interpretación requiere traducir los datos crudos de imagen en parámetros cuantitativos, los cuales son considerados relevantes para clasificar la condición cardiaca de un paciente. Para realizar tal tarea, los métodos basados en modelos estadísticos de forma han recibido favoritismo dada la naturaleza tridimensional (o 3D+t) de las imágenes cardiovasculares. Deformando el modelo estadístico de forma a la imagen de un paciente, el corazón puede analizarse de manera integral. Actualmente, el campo de las imágenes cardiovasculares esta constituido por diferentes modalidades. Cada modalidad explota diferentes fenómenos físicos, lo cual nos permite observar el órgano cardiaco desde diferentes ángulos. El personal clínico recopila todas estas piezas de información y las ensambla mentalmente en un modelo integral. Este modelo integral incluye información anatómica y funcional que muestra un cuadro completo del corazón del paciente. Es de alto interés transformar este modelo mental en un modelo computacional capaz de integrar la información de manera global. La generación de un modelo como tal no es simplemente un reto de visualización. Requiere una metodología capaz de extraer los parámetros cuantitativos relevantes basados en los mismos principios técnicos. Esto nos asegura que las mediciones se pueden comparar directamente. Tal metodología debe ser capaz de: 1) segmentar con precisión las cavidades cardiacas a partir de datos multimodales, 2) proporcionar un marco de referencia único para integrar múltiples fuentes de información, y 3) asistir la clasificación de la condición cardiaca del paciente. Esta tesis se basa en que los modelos estadísticos de forma, y en particular los Modelos Activos de Forma, son un método robusto y preciso con el potencial de incluir todos estos requerimientos. Para procesar múltiples modalidades de imagen, separamos la información estadística de forma de la información de apariencia. Obtenemos la información estadística de forma a partir de una modalidad de alta resolución y aprendemos la apariencia simulando la física de adquisición de otras modalidades. Las contribuciones de esta tesis pueden ser resumidas así: 1) un método genérico para construir automáticamente modelos de intensidad para los Modelos Activos de Forma simulando la física de adquisición de la modalidad en cuestión, 2) la primera extensión de un simulador de Resonancia Magnética Nuclear diseñado para producir estudios cardiacos realistas, y 3) un método novedoso para el entrenamiento automático de modelos de intensidad y de fiabilidad aplicado a estudios cardiacos de Resonancia Magnética Nuclear. Cada una de estas contribuciones representa un artículo publicado o enviado a una revista técnica internacional.
Cardiovascular diseases (CVDs) are the major cause of death in the Western world. The desire to prevent and treat CVDs has triggered a rapid development of medical imaging systems. As a consequence, the amount of imaging data collected in health care institutions has increased considerably. This fact has raised the need for automated analysis tools to support diagnosis with reliable and reproducible image interpretation. The interpretation task requires to translate raw imaging data into quantitative parameters, which are considered relevant to classify the patient’s cardiac condition. To achieve this task, statistical shape model approaches have found favoritism given the 3D (or 3D+t) nature of cardiovascular imaging datasets. By deforming the statistical shape model to image data from a patient, the heart can be analyzed in a more holistic way. Currently, the field of cardiovascular imaging is constituted by different modalities. Each modality exploits distinct physical phenomena, which allows us to observe the cardiac organ from different angles. Clinicians collect all these pieces of information to form an integrated mental model. The mental model includes anatomical and functional information to display a full picture of the patient’s heart. It is highly desirable to transform this mental model into a computational model able to integrate the information in a comprehensive manner. Generating such a model is not simply a visualization challenge. It requires having a methodology able to extract relevant quantitative parameters by applying the same principle. This assures that the measurements are directly comparable. Such a methodology should be able to: 1) accurately segment the cardiac cavities from multimodal datasets, 2) provide a unified frame of reference to integrate multiple information sources, and 3) aid the classification of a patient’s cardiac condition. This thesis builds upon the idea that statistical shape models, in particular Active Shape Models, are a robust and accurate approach with the potential to incorporate all these requirements. In order to handle multiple image modalities, we separate the statistical shape information from the appearance information. We obtain the statistical shape information from a high resolution modality and include the appearance information by simulating the physics of acquisition of other modalities. The contributions of this thesis can be summarized as: 1) a generic method to automatically construct intensity models for Active Shape Models based on simulating the physics of acquisition of the given imaging modality, 2) the first extension of a Magnetic Resonance Imaging (MRI) simulator tailored to produce realistic cardiac images, and 3) a novel automatic intensity model and reliability training strategy applied to cardiac MRI studies. Each of these contributions represents an article published or submitted to a peer-review archival journal.
APA, Harvard, Vancouver, ISO, and other styles
43

DUMAS, EMMANUEL. "Elaboration d'outils de segmentation et de recalage d'images multimodales application a l'etude des accidents vasculaires cerebraux a partir d'angiographie irm chez le primate non humain." Caen, 2000. http://www.theses.fr/2000CAEN2005.

Full text
Abstract:
Les accidents vasculaires cerebraux constituent une des causes majeures de mortalite et d'infirmite severe et durable dans le monde. Leur comprehension necessite la mise au point d'outils informatiques pour l'etude de modeles chez l'animal. Au cours de ces etudes, nous utilisons quatre modalites d'observation. Il s'agit de l'irm (imagerie a resonance magnetique) anatomique, l'irm angiographique, la tep (tomographie a emission de positons) et les coupes post-mortem histologiques. Une bonne exploitation de ces donnees necessite une fusion de celles-ci. Pour y parvenir, nous operons un certain nombre de pretraitements sur les images acquises de facon a rendre ces quatre modalites comparables. Il s'agit d'une part de la correction du signal pour les angiographies irm et d'autre part de la reconstruction d'un volume a partir de coupes post-mortem histologiques. Nous pouvons alors operer un recalage multi-modal. Nous avons choisi de recaler toutes les donnees sur l'irm anatomique. Nous decrivons les methodes selectionnees et adaptees pour chaque modalite. Des resultats sur des donnees extraites d'experiences menees au centre cyceron sont presentes. Pour completer ce recalage, nous proposons une methode de segmentation des donnees angiographiques basee sur le suivi des vaisseaux par une boite servant de region d'interet. Nous arrivons ainsi a reconstruire l'arbre vasculaire cerebral chez le primate non humain.
APA, Harvard, Vancouver, ISO, and other styles
44

Chenoune, Yasmina. "Estimation des déformations myocardiques par analyse d'images." Thesis, Paris Est, 2008. http://www.theses.fr/2008PEST0014/document.

Full text
Abstract:
Les travaux présentés dans cette thèse s'inscrivent dans le contexte du traitement des images cardiaques et l'étude de la fonction contractile du coeur, pour une meilleure compréhension de physiopathologie cardiaque et l'aide au diagnostic. Nous avons implémenté une méthode de segmentation des parois endocardiques sur des ciné-IRM non marquées. Nous avons utilisé une approche fondée sur les ensembles de niveaux, avec une formulation basée-région qui donne des résultats satisfaisants sur des cas sains et pathologiques. Nous avons proposé une méthode pratique pour la quantification des déformations segmentaires afin decaractériser la contractilité myocardique. La méthode a fait l'objet d'une validation clinique par l'expertise de médecins et par comparaison à la méthode HARP sur des IRM marquées. Pour améliorer la précision des mesures, nous avons proposé un algorithme de recalage iconique multimodal IRM/TDM, utilisant la maximisation de l'information culturelle. Nous l'avons appliqué à la localisation de coupes petit-axe dans des volumes TDM avec des résultats encourageants. Ce travail a pour perspective son application à l'obtention de séquences TDM de hautes résolutions spatiale et temporelle
The work presented in this thesis is related to the cardiac images processing and the cardiac contractile function study, for a better comprehension of cardiac physiopathology and diagnosis. We implemented a method for the segmentation of the endocardial walls on standard MRI without tags. We used an approach based on the level set method, with a region-based formulation which gives satisfactory results on healthy and pathological cases. We proposed a practical method for the quantification of the segmental deformations in order to characterize the myocardial contractility. The method was clinically validated by the assesment of doctors and by comparison with the HARP method on tagget MRI. To improve the measurements precision, we proposed an iconic MRI/CT multimodal registration algorithm, using the maximization of the mutual information. We applied it to the localization of short-axis slices in CT volumes with good results. This work has as prospect its application to obtain high spatial and temporal resolutions CT sequences
APA, Harvard, Vancouver, ISO, and other styles
45

Robert, Damien. "Efficient learning on large-scale 3D point clouds." Electronic Thesis or Diss., Université Gustave Eiffel, 2024. http://www.theses.fr/2024UEFL2003.

Full text
Abstract:
Au cours de la dernière décennie, l'apprentissage profond a été le moteur des progrès dans l'analyse automatisée de structures de données complexes aussi diverses que le texte, l'image, l'audio et la vidéo. En particulier, les modèles de type transformer et l'apprentissage auto-supervisé ont récemment déclenché une course généralisée visant à apprendre des représentations textuelles et visuelles expressives en entrainant le modèle au plus grand nombre de paramètres, sur le plus gros jeu de données possible, à l'aide des plus grandes ressources de calcul. Cette thèse emprunte un chemin différent en proposant des méthodes d'apprentissage profond économes en ressources, pour l'analyse de nuages de points 3D à grande échelle. L'efficacité des approches présentées se décline sous différentes formes : entrainement rapide, peu de paramètres, faible coût de calcul, économe en mémoire et exploitation de données disponibles de manière réaliste. Ce faisant, nous nous efforçons de concevoir des solutions pouvant être utilisées par les chercheurs et les praticiens avec des exigences matérielles minimales.Nous introduisons d'abord un modèle de segmentation sémantique 3D qui combine l'efficacité des méthodes basées superpoints avec l'expressivité des transformers. Nous construisons une représentation hiérarchique des données qui réduit considérablement la taille du problème d'analyse de nuage de points 3D, facilitant le traitement de scènes de grande échelle.Notre réseau se révèle égaler, voire surpasser, les approches de pointe sur une gamme de capteurs et d'environnements d'acquisition, tout en réduisant le nombre de paramètres et le temps d'entrainement de un à deux ordres de grandeur. Nous étendons ensuite ce cadre à la segmentation panoptique de nuages de points à grande échelle.Les méthodes existantes de segmentation d'instance et panoptique doivent résoudre un problème de correspondance complexe entre les instances prédites et réelles pour calculer leur fonction de coût. Au lieu de cela, nous formulons cette tâche comme un problème de clustering de graphe, qu'un petit réseau est entrainé pour résoudre à partir d'objectifs locaux uniquement, sans nécessiter le calcul d'instances durant l'entraînement. Notre modèle peut traiter des scènes de dix millions de points à la fois sur un seul GPU en quelques secondes, ouvrant la voie à la segmentation panoptique 3D à des échelles sans précédent. Enfin, nous proposons d'exploiter la complémentarité des modalités image et nuage de points pour améliorer l'analyse de scènes 3D. Nous nous plaçons dans un cadre d'acquisition réaliste, où plusieurs images arbitrairement positionnées observent la même scène, avec de potentielles occultations. Contrairement aux approches existantes de fusion 2D-3D, nous apprenons à sélectionner des informations à partir de différentes vues du même objet en fonction de leurs conditions d'observation respectives : distance caméra-objet, taux d'occultation, distorsion optique, etc. Notre implémentation efficace atteint l'état de l'art tant pour des scènes d'intérieur que d'extérieur, avec des exigences minimales : nuages de points bruts, images positionnées de manière arbitraire et les poses de leurs caméras. Dans l'ensemble, cette thèse soutient le principe que, dans des régimes où les données sont rares, exploiter la structure du problème permet de développer des architectures à la fois efficaces et performantes
For the past decade, deep learning has been driving progress in the automated understanding of complex data structures as diverse as text, image, audio, and video. In particular, transformer-based models and self-supervised learning have recently ignited a global competition to learn expressive textual and visual representations by training the largest possible model on Internet-scale datasets, with the help of massive computational resources. This thesis takes a different path, by proposing resource-efficient deep learning methods for the analysis of large-scale 3D point clouds.The efficiency of the introduced approaches comes in various flavors: fast training, few parameters, small compute or memory footprint, and leveraging realistically-available data.In doing so, we strive to devise solutions that can be used by researchers and practitioners with minimal hardware requirements.We first introduce a 3D semantic segmentation model which combines the efficiency of superpoint-based methods with the expressivity of transformers. We build a hierarchical data representation which drastically reduces the size of the 3D point cloud parsing problem, facilitating the processing of large point clouds en masse. Our self-attentive network proves to match or even surpass state-of-the-art approaches on a range of sensors and acquisition environments, while boasting orders of magnitude fewer parameters, faster training, and swift inference.We then build upon this framework to tackle panoptic segmentation of large-scale point clouds. Existing instance and panoptic segmentation methods need to solve a complex matching problem between predicted and ground truth instances for computing their supervision loss.Instead, we frame this task as a scalable graph clustering problem, which a small network is trained to address from local objectives only, without computing the actual object instances at train time. Our lightweight model can process ten-million-point scenes at once on a single GPU in a few seconds, opening the door to 3D panoptic segmentation at unprecedented scales. Finally, we propose to exploit the complementarity of image and point cloud modalities to enhance 3D scene understanding.We place ourselves in a realistic acquisition setting where multiple arbitrarily-located images observe the same scene, with potential occlusions.Unlike previous 2D-3D fusion approaches, we learn to select information from various views of the same object based on their respective observation conditions: camera-to-object distance, occlusion rate, optical distortion, etc. Our efficient implementation achieves state-of-the-art results both in indoor and outdoor settings, with minimal requirements: raw point clouds, arbitrarily-positioned images, and their cameras poses. Overall, this thesis upholds the principle that in data-scarce regimes,exploiting the structure of the problem unlocks both efficient and performant architectures
APA, Harvard, Vancouver, ISO, and other styles
46

Mozaffari, Maaref Mohammad Hamed. "A Real-Time and Automatic Ultrasound-Enhanced Multimodal Second Language Training System: A Deep Learning Approach." Thesis, Université d'Ottawa / University of Ottawa, 2020. http://hdl.handle.net/10393/40477.

Full text
Abstract:
The critical role of language pronunciation in communicative competence is significant, especially for second language learners. Despite renewed awareness of the importance of articulation, it remains a challenge for instructors to handle the pronunciation needs of language learners. There are relatively scarce pedagogical tools for pronunciation teaching and learning, such as inefficient, traditional pronunciation instructions like listening and repeating. Recently, electronic visual feedback (EVF) systems (e.g., medical ultrasound imaging) have been exploited in new approaches in such a way that they could be effectively incorporated in a range of teaching and learning contexts. Evaluation of ultrasound-enhanced methods for pronunciation training, such as multimodal methods, has asserted that visualizing articulator’s system as biofeedback to language learners might improve the efficiency of articulation learning. Despite the recent successful usage of multimodal techniques for pronunciation training, manual works and human manipulation are inevitable in many stages of those systems. Furthermore, recognizing tongue shape in noisy and low-contrast ultrasound images is a challenging job, especially for non-expert users in real-time applications. On the other hand, our user study revealed that users could not perceive the placement of their tongue inside the mouth comfortably just by watching pre-recorded videos. Machine learning is a subset of Artificial Intelligence (AI), where machines can learn by experiencing and acquiring skills without human involvement. Inspired by the functionality of the human brain, deep artificial neural networks learn from large amounts of data to perform a task repeatedly. Deep learning-based methods in many computer vision tasks have emerged as the dominant paradigm in recent years. Deep learning methods are powerful in automatic learning of a new job, while unlike traditional image processing methods, they are capable of dealing with many challenges such as object occlusion, transformation variant, and background artifacts. In this dissertation, we implemented a guided language pronunciation training system, benefits from the strengths of deep learning techniques. Our modular system attempts to provide a fully automatic and real-time language pronunciation training tool using ultrasound-enhanced augmented reality. Qualitatively and quantitatively assessments indicate an exceptional performance for our system in terms of flexibility, generalization, robustness, and autonomy outperformed previous techniques. Using our ultrasound-enhanced system, a language learner can observe her/his tongue movements during real-time speech, superimposed on her/his face automatically.
APA, Harvard, Vancouver, ISO, and other styles
47

Dahbi, Radouan. "Conception d’une chaîne de traitements pour la segmentation texture d’images multimodales de pièces de bois en chêne. Application à la détection des singularités et la discrimination du grain du bois." Electronic Thesis or Diss., Université de Lorraine, 2023. http://www.theses.fr/2023LORR0143.

Full text
Abstract:
Les travaux présentés dans cette thèse CIFRE, liant le CRAN et le CRITT Bois d'Epinal dans le cadre du projet ANR-OPTIFIN, contribuent au développement d'une chaîne de traitements pour la segmentation texture des images multimodales de pièces de bois en chêne. L'idée est de combiner des techniques d'acquisition multimodale dans le visible et le proche infrarouge (NIR) à des méthodes d'analyse de texture par matrices de covariance et de segmentation texture dans la variété Riemannienne, pour la détection des singularités et la discrimination du grain du bois. Dans le premier chapitre, nous dressons un état de l'art sur l'inspection automatisée des pièces de bois ; en portant une attention particulière aux essences de bois feuillus (e.g. chêne) dont l'inspection demeure encore un problème non résolu. Le deuxième chapitre porte sur la mise en place de la plate-forme d'imagerie multimodale (PIM) et la calibration des images couleur, niveaux de gris, directe et scatter dans le visible et des cartes d'abondance, obtenues à partir des images hyperspectrales NIR. Nous proposons une méthodologie originale pour les images scatter en optimisant les paramètres d'acquisition sur les pièces de bois en chêne. Le troisième chapitre concerne l'étude du recalage des images monomodales et multimodales et l'application d'une méthode pour la suppression de leur fond. Dans le quatrième chapitre, nous proposons une méthodologie d'analyse texture basée sur la fusion par matrices de covariance des images multimodales et/ou de leurs images texturales (LBP, nriLBP, GLCM et Gradient). Nous exploitons les matrices de covariance par des méthodes de clustering par K-moyennes et de classification supervisée par k-ppv, étendues au cas Riemannien, pour la segmentation. Dans le dernier chapitre sont présentés les résultats garantissant une segmentation pertinente et rapide des matrices de covariance. Ils sont obtenus après avoir déterminé les meilleurs paramètres de réglages des K-moyennes. Les résultats du clustering laissent apparaître que l'utilisation des images multimodales seules conduit à une segmentation optimale des singularités compactes. Ils montrent aussi l'importance de l'intégration des images texturales dans les jeux de modalités pour obtenir une meilleure segmentation des singularités de type région. Pour le grain du bois, une segmentation efficace est obtenue en utilisant les images texturales seules. Enfin, nous proposons d'appliquer les k-ppv dans la variété Riemannienne sur les modalités sélectionnées pour obtenir une segmentation plus précise
The work presented in this CIFRE thesis, associating CRAN and CRITT Bois for the ANR-OPTIFIN project, contributes to the development of an image processing chain for the texture segmentation of multimodal images of sawn oak timber pieces. The idea is to combine multimodal acquisition techniques in visible and near-infrared (NIR) range with texture analysis methods using covariance matrices and texture segmentation methods in the Riemannian manifold, for the detection of singularities and discrimination of wood grain. In the first chapter, we present a state of the art on automated inspection of wood pieces; with a special focus on hardwood species (e.g. oak) for which inspection is still an open problem. The second chapter deals with the implementation of the multimodal imagery platform (PIM) and the calibration of color, grayscale, direct and scatter images in the visible range and abundance maps, obtained from NIR hyperspectral images. We propose an original methodology for the scatter images by optimizing the acquisition parameters on sawn oak timber pieces. The third chapter concerns the study of the registration of monomodal and multimodal images and the application of a method for the suppression of their background. In the fourth chapter, we propose a texture analysis methodology based on the fusion of multimodal images and/or their textural images (LBP, nriLBP, GLCM and Gradient) by covariance matrices. We exploit the covariance matrices by K-means clustering andk-ppv supervised classification methods, extended to the Riemannian case, for segmentation. In the last chapter, we present results ensuring a relevant and fast segmentation of the covariance matrices. They are obtained after having determined the best parameters for the K-means setting. The clustering results show that the use of multimodal images alone leads to an optimal segmentation of compact singularities. They also show the importance of integrating textural images in the modality sets to obtain a better segmentation of regional type singularities. For wood grain, an efficient segmentation is obtained by using only textural images. Finally, we propose to apply k-ppv in the Riemannian manifold on the selected modalities to obtain a more accurate segmentation
APA, Harvard, Vancouver, ISO, and other styles
48

Saleh, Mohamed Ibrahim. "Using Ears for Human Identification." Thesis, Virginia Tech, 2007. http://hdl.handle.net/10919/33158.

Full text
Abstract:
Biometrics includes the study of automatic methods for distinguishing human beings based on physical or behavioral traits. The problem of finding good biometric features and recognition methods has been researched extensively in recent years. Our research considers the use of ears as a biometric for human recognition. Researchers have not considered this biometric as much as others, which include fingerprints, irises, and faces. This thesis presents a novel approach to recognize individuals based on their outer ear images through spatial segmentation. This approach to recognizing is also good for dealing with occlusions. The study will present several feature extraction techniques based on spatial segmentation of the ear image. The study will also present a method for classifier fusion. Principal components analysis (PCA) is used in this research for feature extraction and dimensionality reduction. For classification, nearest neighbor classifiers are used. The research also investigates the use of ear images as a supplement to face images in a multimodal biometric system. Our base eigen-ear experiment results in an 84% rank one recognition rate, and the segmentation method yielded improvements up to 94%. Face recognition by itself, using the same approach, gave a 63% rank one recognition rate, but when complimented with ear images in a multimodal system improved to 94% rank one recognition rate.
Master of Science
APA, Harvard, Vancouver, ISO, and other styles
49

Fernández, Abenoza Roberto. "Improving Travel Satisfaction with Public Transport." Licentiate thesis, KTH, Systemanalys och ekonomi, 2017. http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-200734.

Full text
Abstract:
The existing link between PT travelers’ satisfaction, ridership and loyalty prove the relevance of improving overall trip satisfaction. The thesis present an array of approaches and methodologies aiming at increasing overall satisfaction with PT door-to-door trips while covering important issues that previous research has failed to address. These knowledge gaps include: disregarding the different needs and priorities of different type of travelers; overlooking the evolution over time and across geographical areas that overall satisfaction and satisfaction with specific service attributes may experience; and, neglecting the importance of access and egress legs. Based on the Swedish customer satisfaction barometer (2001-2013), an investigation of the determinants of PT satisfaction and their evolution over time (I) shows that: a) the deterioration of overall satisfaction with PT in Sweden in recent years is driven by a decrease in satisfaction with customer interface and length of trip time; b) these two service aspects as well as operation are found as key determinants of overall satisfaction which users consistently rate among the least satisfactory. The diversity of needs and priorities of SKT travelers was reduced into 5 distinctive multi-modal travelers’ groups (II). These travelers’ groups exhibited geographical disparities and an in between-groups overall similarity in the importance attached to the service attributes. Nevertheless, some noticeable differences could be observed. The service attributes’ importance levels reveal overall changes in appreciations and consumption goals over time. A number of both normative and heuristic satisfaction aggregation rules are tested on METPEX dataset for different types of trip configurations (III). The results show that normative rules can better reproduce overall travel satisfaction than heuristic rules, indicating that all trip legs need to be considered when evaluating the overall travel experience.
Kontinuerlig urban tillväxt, miljöproblem, konkurrens om begränsat utrymme, längre pendlingsavstånd samt behovet av att främja rättvisa och jämlikhet i samhället är de främsta anledningarna till förbättringar av kollektivtrafikens (KT) tjänster och attraktionskraft för att få fler resenärer att byta från bil till KT och därmed en viktig politisk fråga i många länder över hela världen. Den befintliga kopplingen mellan KT-resenärens tillfredsställelse, antalet passagerare och lojalitet visar betydelsen av att förbättra resans övergripande tillfredsställelse. De tre artiklar som ingår i denna licentiatavhandling presenterar en rad tillvägagångssätt och metoder som syftar till att öka den totala tillfredsställelsen med KT i ”från dörr till dörr”-resor samt täcker viktiga frågor som tidigare forskning har misslyckats med att ta itu med. Dessa kunskapsluckor inkluderar de olika behov och prioriteringar som olika typer av resenärer har, utveckling över tid och över geografiska områden som total tillfredsställelse och tillfredsställelse med specifika serviceattribut kan påverkas av samt försummelsen av resans av- och påstigningsdelar. Baserat på den svenska kundtillfredsställelsebarometern Svensk Kollektivtrafikbarometer (SKT) visar en undersökning av bestämningsfaktorerna för KT- tillfredsställelse och deras utveckling över tiden för KT-användare under åren 2001-2013 att (Artikel I): a) det skett en försämring av den sammanlagda tillfredsställelsen med KT i Sverige under de senaste åren som drivits av en minskning av tillfredsställelsen med kundgränssnittet och resans tid; b) att dessa två serviceaspekter samt drift är helt avgörande för övergripande tillfredsställelse och som resenärer konsekvent graderar bland de minst tillfredsställande. Mångfalden av behov och prioriteringar för SKT-resenärer reducerades till 5 distinkta multimodala resenärsgrupper (Artikel II). Dessa resenärsgrupper uppvisade geografiska skillnader och en i mellan-grupper övergripande likhet i vikt som fästs vid serviceattribut. Likväl kan några märkbara skillnader observeras. Serviceattributens betydelse avslöjar övergripande förändringar i uppskattnings- och konsumtionsmål över tid. De mer frekventa KT-användarsegmenten är mer nöjda över hela spektret och kännetecknas av en mer balanserad fördelning av attributens betydelse, medan en av grupperna – bilpendlare på landsbygden - är markant missnöjda med service- och driftattribut. Ett antal både normativa och heuristiska regler för aggregerad tillfredsställelse testas på METPEX-data (A Measurement Tool to determine the quality of the Passenger EXperience) för olika typer av resekonfigurationer (Artikel III). Detta görs för att förstå hur resenärer kombinerar delresors tillfredsställelse i en övergripande utvärdering av hela resan och för att undersöka den relativa betydelsen av tillfredsställelse med påstignings-, huvud- och avstigningsdel för hela reseupplevelsen i ”från dörr till dörr”-resor. Resultaten visar att normativa regler bättre kan återge övergripande resetillfredsställelse än heuristiska regler, vilket tyder på att alla resans delar måste beaktas när man utvärderar den samlade reseupplevelsen. I synnerhet ger viktning av tillfredsställelse med individuella delresor och de upplevda delresornas restider den bästa predikatorn för övergripande resetillfredsställelse, särskilt vid tillämpning av en väntetidsvikt på 3 eller 4 gånger i fordons- eller gångtid. Denna uppsättning artiklar skulle kunna hjälpa myndigheter att bättre utvärdera och tillgodose resenärernas behov genom att stödja tilldelning av resurser och prioriterandet av åtgärder i den mest effektfulla delen i en ”från dörr till dörr”-resa.
El rápido crecimiento urbano, problemas medioambientales, la competencia por el uso de espacios cada vez más limitados, el aumento de la distancia en los viajes pendulares así como la necesidad de fomentar una sociedad más equitativa e igualitaria, son algunas de las principales razones que hacen de la mejora de los servicios de transporte público (TP) y del trasvase de usuarios del transporte privado motorizado al TP una política clave en muchos países del mundo. La relación existente entre la mejora de la satisfacción del usuario de TP con el incremento de usuarios y de su fidelidad, prueban la importancia de mejorar la satisfacción global del usuario con el viaje. Los tres artículos incluidos en esta tesis de mitad de doctorado, en Suecia Licentiate thesis, presentan un variedad de enfoques y métodos que tienen como objetivo incrementar la satisfacción global con los viajes de puerta a puerta (desde el origen hasta el destino final) en los que el transporte público está involucrado, a la par de cubrir cuestiones importantes que no han abordado estudios previos. Estas lagunas de conocimientos incluyen: ignorar las distintas prioridades y necesidades de distintos tipos de viajeros; pasar por alto que tanto la satisfacción global con el viaje como la satisfacción con los atributos específicos del servicio pueden experimentar cambios a lo largo del tiempo y entre diversas zonas geográficas; y, el obviar la importancia que otras etapas del viaje (acceso y egreso), diferentes a la principal, pueden ejercer sobre la valoración global del viaje. Basado en el barómetro sueco de satisfacción del usuario de transporte público (SKT), se estudian los determinantes de la satisfacción con el TP y su evolución temporal, para usuarios de TP y para el período 2001-2013 (Artículo I). El artículo muestra que: a) el deterioro de la satisfacción global con el TP sueco experimentado en los últimos años se debe a la disminución de la satisfacción con el modo en el que la agencia de TP gestiona las quejas y el trato con los usuarios (customer interface), y de la duración del viaje (length of trip time); b) frequencia y la fiabilidad del servicio (operation) se suman a los dos ya mencionados atributos del servicio como factores determinantes de la satisfacción global con el TP. Son precisamente estos tres atributos los que consistentemente reciben unas valoraciones situadas entre las menos satisfactorias.  Basándose en las características de tipo socio-económico, en las del viaje y en coeficientes de accesibilidad, se obtienen cinco grupos de viajeros multimodales relativamente homogéneos, los cuales ayudan a simplificar la complejidad existente, en términos de necesidades y prioridades, de todos los viajeros suecos - SKT (Artículo II). Los cinco grupos de viajeros exhiben disparidades geográficas y, en general, una semejanza entre grupos en la importancia atribuida a los atributos del servicio. Sin embargo, existen algunas diferencias notorias. A lo largo del tiempo, los niveles de importancia de los atributos del servicio revelan cambios generales en las apreciaciones y objetivos de consumo. Los grupos de viajeros que viajan más frecuentemente con transporte público están, de forma generalizada, más satisfechos con el viaje y muestran una distribución más equilibrada de la importancia dada a los atributos del servicio. Se hace destacable la marcada insatisfacción que uno de los grupos – los automovilistas rurales pendulares (rural motorist commuters)- muestran con los atributos relacionados con la operación (fiabilidad y frequencia). Una serie de reglas de agregación de la satisfacción del viajero, tanto normativas como heurísticas, son examinadas en el conjunto de datos de METPEX (Una herramienta de medición para determinar la calidad de la experiencia del viajero) para distintos tipos de configuraciones de viaje (Artículo III). El objetivo de este artículo es; entender como los viajeros combinan la satisfacción con cada una de las etapas del viaje en su valoración global del viaje, e investigar la importancia relativa que cada una de las tres etapas del viaje (acceso, principal y egreso) tienen sobre la experiencia de un viaje completo de puerta a puerta. Los resultados muestran que, en comparación con las reglas heurísticas, las reglas normativas pueden reproducir de una mejor manera la satisfacción global con el viaje; indicando que todas las etapas del viaje necesitan ser consideradas cuando se evalúa la experiencia global del viaje. En particular la ponderación de la satisfacción con cada una de los segmentos del viaje[1] con la duración percibida para cada una de los segmentos del viaje produce el mejor indicador de la satisfacción global del viaje, especialmente cuando se aplica una penalización por cada minuto de espera equivalente a 3 o 4 veces el tiempo en movimiento y/o caminando. Éste conjunto de artículos pretende ayudar a las operadores y autoridades pertinentes a evaluar y proveer de la mejor manera posible las necesidades de los viajeros mediante la priorización de medidas y asignación de recursos a la parte más relevante del viaje multimodal puerta a puerta.  [1] Un segmento del viaje (trip leg) es la parte más pequeña en la que se descompone un viaje de puerta a puerta. Una etapa del viaje puede estar compuesta de uno o más segmentos del viaje.

QC 20170202

APA, Harvard, Vancouver, ISO, and other styles
50

Lopez-Hernandez, Juan. "Imagerie Cardiaque Multimodalités 2D et 3D :application à la Coronarographie/Tomoscintigraphie/TEP-CT." Phd thesis, Institut National Polytechnique de Lorraine - INPL, 2006. http://tel.archives-ouvertes.fr/tel-00118991.

Full text
Abstract:
La coronarographie et la tomoscintigraphie (SPECT, de l'anglais "Single Photon Emission Computed
Tomography") sont deux techniques d'imagerie utilisées couramment pour diagnostiquer les maladies
cardiovasculaires. La première modalité est constituée de séquences d'images à rayon X visualisant chacune,
dans un même plan, les artères coronaires situées sur la face avant et la face arrière du coeur. Les images à
rayons X fournissent des informations anatomiques liées à l'arbre artériel et mettent en évidence d'éventuels
rétrécissements des artères (sténoses). La modalité SPECT (imagerie nucléaire) fournit une représentation 3D
de la perfusion du volume myocardique. Cette information fonctionnelle permet la visualisation de régions
myocardiques souffrant de défauts d'irrigations. Le but du travail présenté est de superposer, en 3D, les
informations fonctionnelles et anatomiques pour établir un lien visuel entre des lésions artérielles et leurs
conséquences en termes de défauts d'irrigation. Dans la représentation 3D choisie pour faciliter le diagnostic, la
structure d'un arbre artériel schématique, comprenant les sténoses, est placée sur le volume de perfusion. Les
données initiales sont constituées d'une liste de points représentatifs de l'arbre artériel (points d'arrivée et de
départs de segments d'artères, bifurcations, sténoses, etc.) marqués par le coronarographiste dans les images à
rayons X des différentes incidences. Le volume de perfusion est ensuite projeté sous les incidences des images
de coronarographie. Un algorithme de recalage superposant les images à rayons X et les projections SPECT
correspondantes fournit les paramètres des transformations géométriques ramenant les points marqués dans les
images à rayons X dans une position équivalente dans les images SPECT. Un algorithme de reconstruction 3D
permet ensuite de placer les points artériels et les sténoses sur le volume de perfusion et de former un arbre
schématique servant de repère au clinicien. Une base de données formée de 28 patients a été utilisée pour
effectuer 40 superpositions 3D de données anatomo-fonctionnelles. Ces reconstructions ont montré que la
représentation 3D est suffisamment précise pour permettre d'établir visuellement un lien entre sténoses et
défauts de perfusions. Nos algorithmes de superpositions 3D ont ensuite été complétés pour remplacer la
modalité SPECT par les données de l'examen bimodal TEP/CT (Tomographie par Emission de
Positons/Tomodensitométrie). Les données d'un cas clinique trimodal TEP/CT/coronarographie ont été utilisées
pour vérifier l'adéquation de nos algorithmes à la nouvelle modalité d'imagerie.
APA, Harvard, Vancouver, ISO, and other styles
We offer discounts on all premium plans for authors whose works are included in thematic literature selections. Contact us to get a unique promo code!

To the bibliography