Auswahl der wissenschaftlichen Literatur zum Thema „Segmentation Multimodale“

Geben Sie eine Quelle nach APA, MLA, Chicago, Harvard und anderen Zitierweisen an

Wählen Sie eine Art der Quelle aus:

Machen Sie sich mit den Listen der aktuellen Artikel, Bücher, Dissertationen, Berichten und anderer wissenschaftlichen Quellen zum Thema "Segmentation Multimodale" bekannt.

Neben jedem Werk im Literaturverzeichnis ist die Option "Zur Bibliographie hinzufügen" verfügbar. Nutzen Sie sie, wird Ihre bibliographische Angabe des gewählten Werkes nach der nötigen Zitierweise (APA, MLA, Harvard, Chicago, Vancouver usw.) automatisch gestaltet.

Sie können auch den vollen Text der wissenschaftlichen Publikation im PDF-Format herunterladen und eine Online-Annotation der Arbeit lesen, wenn die relevanten Parameter in den Metadaten verfügbar sind.

Zeitschriftenartikel zum Thema "Segmentation Multimodale"

1

Nai, Ying-Hwey, Bernice W. Teo, Nadya L. Tan, Koby Yi Wei Chua, Chun Kit Wong, Sophie O’Doherty, Mary C. Stephenson et al. „Evaluation of Multimodal Algorithms for the Segmentation of Multiparametric MRI Prostate Images“. Computational and Mathematical Methods in Medicine 2020 (20.10.2020): 1–12. http://dx.doi.org/10.1155/2020/8861035.

Der volle Inhalt der Quelle
Annotation:
Prostate segmentation in multiparametric magnetic resonance imaging (mpMRI) can help to support prostate cancer diagnosis and therapy treatment. However, manual segmentation of the prostate is subjective and time-consuming. Many deep learning monomodal networks have been developed for automatic whole prostate segmentation from T2-weighted MR images. We aimed to investigate the added value of multimodal networks in segmenting the prostate into the peripheral zone (PZ) and central gland (CG). We optimized and evaluated monomodal DenseVNet, multimodal ScaleNet, and monomodal and multimodal HighRes3DNet, which yielded dice score coefficients (DSC) of 0.875, 0.848, 0.858, and 0.890 in WG, respectively. Multimodal HighRes3DNet and ScaleNet yielded higher DSC with statistical differences in PZ and CG only compared to monomodal DenseVNet, indicating that multimodal networks added value by generating better segmentation between PZ and CG regions but did not improve the WG segmentation. No significant difference was observed in the apex and base of WG segmentation between monomodal and multimodal networks, indicating that the segmentations at the apex and base were more affected by the general network architecture. The number of training data was also varied for DenseVNet and HighRes3DNet, from 20 to 120 in steps of 20. DenseVNet was able to yield DSC of higher than 0.65 even for special cases, such as TURP or abnormal prostate, whereas HighRes3DNet’s performance fluctuated with no trend despite being the best network overall. Multimodal networks did not add value in segmenting special cases but generally reduced variations in segmentation compared to the same matched monomodal network.
APA, Harvard, Vancouver, ISO und andere Zitierweisen
2

Sun, Qixuan, Nianhua Fang, Zhuo Liu, Liang Zhao, Youpeng Wen und Hongxiang Lin. „HybridCTrm: Bridging CNN and Transformer for Multimodal Brain Image Segmentation“. Journal of Healthcare Engineering 2021 (01.10.2021): 1–10. http://dx.doi.org/10.1155/2021/7467261.

Der volle Inhalt der Quelle
Annotation:
Multimodal medical image segmentation is always a critical problem in medical image segmentation. Traditional deep learning methods utilize fully CNNs for encoding given images, thus leading to deficiency of long-range dependencies and bad generalization performance. Recently, a sequence of Transformer-based methodologies emerges in the field of image processing, which brings great generalization and performance in various tasks. On the other hand, traditional CNNs have their own advantages, such as rapid convergence and local representations. Therefore, we analyze a hybrid multimodal segmentation method based on Transformers and CNNs and propose a novel architecture, HybridCTrm network. We conduct experiments using HybridCTrm on two benchmark datasets and compare with HyperDenseNet, a network based on fully CNNs. Results show that our HybridCTrm outperforms HyperDenseNet on most of the evaluation metrics. Furthermore, we analyze the influence of the depth of Transformer on the performance. Besides, we visualize the results and carefully explore how our hybrid methods improve on segmentations.
APA, Harvard, Vancouver, ISO und andere Zitierweisen
3

Pan, Mingyuan, Yonghong Shi und Zhijian Song. „Segmentation of Gliomas Based on a Double-Pathway Residual Convolution Neural Network Using Multi-Modality Information“. Journal of Medical Imaging and Health Informatics 10, Nr. 11 (01.11.2020): 2784–94. http://dx.doi.org/10.1166/jmihi.2020.3216.

Der volle Inhalt der Quelle
Annotation:
The automatic segmentation of brain tumors in magnetic resonance (MR) images is very important in the diagnosis, radiotherapy planning, surgical navigation and several other clinical processes. As the location, size, shape, boundary of gliomas are heterogeneous, segmenting gliomas and intratumoral structures is very difficult. Besides, the multi-center issue makes it more challenging that multimodal brain gliomas images (such as T1, T2, fluid-attenuated inversion recovery (FLAIR), and T1c images) are from different radiation centers. This paper presents a multimodal, multi-scale, double-pathway, 3D residual convolution neural network (CNN) for automatic gliomas segmentation. In the pre-processing step, a robust gray-level normalization method is proposed to solve the multi-center problem, that the intensity range from deferent centers varies a lot. Then, a doublepathway 3D architecture based on DeepMedic toolkit is trained using multi-modality information to fuse the local and context features. In the post-processing step, a fully connected conditional random field (CRF) is built to improve the performance, filling and connecting the isolated segmentations and holes. Experiments on the Multimodal Brain Tumor Segmentation (BRATS) 2017 and 2019 dataset showed that this methods can delineate the whole tumor with a Dice coefficient, a sensitivity and a positive predictive value (PPV) of 0.88, 0.89 and 0.88, respectively. As for the segmentation of the tumor core and the enhancing area, the sensitivity reached 0.80. The results indicated that this method can segment gliomas and intratumoral structures from multimodal MR images accurately, and it possesses a clinical practice value.
APA, Harvard, Vancouver, ISO und andere Zitierweisen
4

Desser, Dmitriy, Francisca Assunção, Xiaoguang Yan, Victor Alves, Henrique M. Fernandes und Thomas Hummel. „Automatic Segmentation of the Olfactory Bulb“. Brain Sciences 11, Nr. 9 (28.08.2021): 1141. http://dx.doi.org/10.3390/brainsci11091141.

Der volle Inhalt der Quelle
Annotation:
The olfactory bulb (OB) has an essential role in the human olfactory pathway. A change in olfactory function is associated with a change of OB volume. It has been shown to predict the prognosis of olfactory loss and its volume is a biomarker for various neurodegenerative diseases, such as Alzheimer’s disease. Thus far, obtaining an OB volume for research purposes has been performed by manual segmentation alone; a very time-consuming and highly rater-biased process. As such, this process dramatically reduces the ability to produce fair and reliable comparisons between studies, as well as the processing of large datasets. Our study aims to solve this by proposing a novel methodological framework for the unbiased measurement of OB volume. In this paper, we present a fully automated tool that successfully performs such a task, accurately and quickly. In order to develop a stable and versatile algorithm and to train the neural network, we used four datasets consisting of whole-brain T1 and high-resolution T2 MRI scans, as well as the corresponding clinical information of the subject’s smelling ability. One dataset contained data of patients suffering from anosmia or hyposmia (N = 79), and the other three datasets contained data of healthy controls (N = 91). First, the manual segmentation labels of the OBs were created by two experienced raters, independently and blinded. The algorithm consisted of the following four different steps: (1) multimodal data co-registration of whole-brain T1 images and T2 images, (2) template-based localization of OBs, (3) bounding box construction, and lastly, (4) segmentation of the OB using a 3D-U-Net. The results from the automated segmentation algorithm were tested on previously unseen data, achieving a mean dice coefficient (DC) of 0.77 ± 0.05, which is remarkably convergent with the inter-rater DC of 0.79 ± 0.08 estimated for the same cohort. Additionally, the symmetric surface distance (ASSD) was 0.43 ± 0.10. Furthermore, the segmentations produced using our algorithm were manually rated by an independent blinded rater and have reached an equivalent rating score of 5.95 ± 0.87 compared to a rating score of 6.23 ± 0.87 for the first rater’s segmentation and 5.92 ± 0.81 for the second rater’s manual segmentation. Taken together, these results support the success of our tool in producing automatic fast (3–5 min per subject) and reliable segmentations of the OB, with virtually matching accuracy with the current gold standard technique for OB segmentation. In conclusion, we present a newly developed ready-to-use tool that can perform the segmentation of OBs based on multimodal data consisting of T1 whole-brain images and T2 coronal high-resolution images. The accuracy of the segmentations predicted by the algorithm matches the manual segmentations made by two well-experienced raters. This method holds potential for immediate implementation in clinical practice. Furthermore, its ability to perform quick and accurate processing of large datasets may provide a valuable contribution to advancing our knowledge of the olfactory system, in health and disease. Specifically, our framework may integrate the use of olfactory bulb volume (OBV) measurements for the diagnosis and treatment of olfactory loss and improve the prognosis and treatment options of olfactory dysfunctions.
APA, Harvard, Vancouver, ISO und andere Zitierweisen
5

Jain, Raunak, Faith Lee, Nianhe Luo, Harpreet Hyare und Anand S. Pandit. „A Practical Guide to Manual and Semi-Automated Neurosurgical Brain Lesion Segmentation“. NeuroSci 5, Nr. 3 (02.08.2024): 265–75. http://dx.doi.org/10.3390/neurosci5030021.

Der volle Inhalt der Quelle
Annotation:
The purpose of the article is to provide a practical guide for manual and semi-automated image segmentation of common neurosurgical cranial lesions, namely meningioma, glioblastoma multiforme (GBM) and subarachnoid haemorrhage (SAH), for neurosurgical trainees and researchers. Materials and Methods: The medical images used were sourced from the Medical Image Computing and Computer Assisted Interventions Society (MICCAI) Multimodal Brain Tumour Segmentation Challenge (BRATS) image database and from the local Picture Archival and Communication System (PACS) record with consent. Image pre-processing was carried out using MRIcron software (v1.0.20190902). ITK-SNAP (v3.8.0) was used in this guideline due to its availability and powerful built-in segmentation tools, although others (Seg3D, Freesurfer and 3D Slicer) are available. Quality control was achieved by employing expert segmenters to review. Results: A pipeline was developed to demonstrate the pre-processing and manual and semi-automated segmentation of patient images for each cranial lesion, accompanied by image guidance and video recordings. Three sample segmentations were generated to illustrate potential challenges. Advice and solutions were provided within both text and video. Conclusions: Semi-automated segmentation methods enhance efficiency, increase reproducibility, and are suitable to be incorporated into future clinical practise. However, manual segmentation remains a highly effective technique in specific circumstances and provides initial training sets for the development of more advanced semi- and fully automated segmentation algorithms.
APA, Harvard, Vancouver, ISO und andere Zitierweisen
6

Zhu, Yuchang, und Nanfeng Xiao. „Simple Scalable Multimodal Semantic Segmentation Model“. Sensors 24, Nr. 2 (22.01.2024): 699. http://dx.doi.org/10.3390/s24020699.

Der volle Inhalt der Quelle
Annotation:
Visual perception is a crucial component of autonomous driving systems. Traditional approaches for autonomous driving visual perception often rely on single-modal methods, and semantic segmentation tasks are accomplished by inputting RGB images. However, for semantic segmentation tasks in autonomous driving visual perception, a more effective strategy involves leveraging multiple modalities, which is because different sensors of the autonomous driving system bring diverse information, and the complementary features among different modalities enhance the robustness of the semantic segmentation modal. Contrary to the intuitive belief that more modalities lead to better accuracy, our research reveals that adding modalities to traditional semantic segmentation models can sometimes decrease precision. Inspired by the residual thinking concept, we propose a multimodal visual perception model which is capable of maintaining or even improving accuracy with the addition of any modality. Our approach is straightforward, using RGB as the main branch and employing the same feature extraction backbone for other modal branches. The modals score module (MSM) evaluates channel and spatial scores of all modality features, measuring their importance for overall semantic segmentation. Subsequently, the modal branches provide additional features to the RGB main branch through the features complementary module (FCM). Leveraging the residual thinking concept further enhances the feature extraction capabilities of all the branches. Through extensive experiments, we derived several conclusions. The integration of certain modalities into traditional semantic segmentation models tends to result in a decline in segmentation accuracy. In contrast, our proposed simple and scalable multimodal model demonstrates the ability to maintain segmentation precision when accommodating any additional modality. Moreover, our approach surpasses some state-of-the-art multimodal semantic segmentation models. Additionally, we conducted ablation experiments on the proposed model, confirming that the application of the proposed MSM, FCM, and the incorporation of residual thinking contribute significantly to the enhancement of the model.
APA, Harvard, Vancouver, ISO und andere Zitierweisen
7

Farag, A. A., A. S. El-Baz und G. Gimel'farb. „Precise segmentation of multimodal images“. IEEE Transactions on Image Processing 15, Nr. 4 (April 2006): 952–68. http://dx.doi.org/10.1109/tip.2005.863949.

Der volle Inhalt der Quelle
APA, Harvard, Vancouver, ISO und andere Zitierweisen
8

You, Siming. „Deep learning in autonomous driving: Advantages, limitations, and innovative solutions“. Applied and Computational Engineering 75, Nr. 1 (05.07.2024): 147–53. http://dx.doi.org/10.54254/2755-2721/75/20240528.

Der volle Inhalt der Quelle
Annotation:
With the rapid development of autonomous driving technology, deep learning has become a core driver for innovation in testing autonomous driving scenarios. This review paper delves into the critical role of deep learning in autonomous driving technology. The paper will describe how deep learning is at the center of driving innovation. The paper thoroughly explores the application of deep learning in obstacle detection, scene classification and understanding, and image segmentation, emphasizing the significant benefits in perception and decision-making while pointing out the challenges and innovative solutions adopted. The innovative solutions section proposes multimodal fusion and joint learning, new methods for 3D semantic segmentation, etc., aiming to improve image segmentation's accuracy and generalization ability. Overall, deep learning has great potential in automated driving technology, and by innovating and solving challenges, it will advance the system and provide reliable, intelligent, and efficient solutions for future transportation systems.
APA, Harvard, Vancouver, ISO und andere Zitierweisen
9

Zuo, Qiang, Songyu Chen und Zhifang Wang. „R2AU-Net: Attention Recurrent Residual Convolutional Neural Network for Multimodal Medical Image Segmentation“. Security and Communication Networks 2021 (10.06.2021): 1–10. http://dx.doi.org/10.1155/2021/6625688.

Der volle Inhalt der Quelle
Annotation:
In recent years, semantic segmentation method based on deep learning provides advanced performance in medical image segmentation. As one of the typical segmentation networks, U-Net is successfully applied to multimodal medical image segmentation. A recurrent residual convolutional neural network with attention gate connection (R2AU-Net) based on U-Net is proposed in this paper. It enhances the capability of integrating contextual information by replacing basic convolutional units in U-Net by recurrent residual convolutional units. Furthermore, R2AU-Net adopts attention gates instead of the original skip connection. In this paper, the experiments are performed on three multimodal datasets: ISIC 2018, DRIVE, and public dataset used in LUNA and the Kaggle Data Science Bowl 2017. Experimental results show that R2AU-Net achieves much better performance than other improved U-Net algorithms for multimodal medical image segmentation.
APA, Harvard, Vancouver, ISO und andere Zitierweisen
10

Zhang, Yong, Yu-mei Zhou, Zhen-hong Liao, Gao-yuan Liu und Kai-can Guo. „Artificial Intelligence-Guided Subspace Clustering Algorithm for Glioma Images“. Journal of Healthcare Engineering 2021 (26.02.2021): 1–9. http://dx.doi.org/10.1155/2021/5573010.

Der volle Inhalt der Quelle
Annotation:
In order to improve the accuracy of glioma segmentation, a multimodal MRI glioma segmentation algorithm based on superpixels is proposed. Aiming at the current unsupervised feature extraction methods in MRI brain tumor segmentation that cannot adapt to the differences in brain tumor images, an MRI brain tumor segmentation method based on multimodal 3D convolutional neural networks (CNNs) feature extraction is proposed. First, the multimodal MRI is oversegmented into a series of superpixels that are uniform, compact, and exactly fit the image boundary. Then, a dynamic region merging algorithm based on sequential probability ratio hypothesis testing is applied to gradually merge the generated superpixels to form dozens of statistically significant regions. Finally, these regions are postprocessed to obtain the segmentation results of each organization of GBM. Combine 2D multimodal MRI images into 3D original features and extract features through 3D-CNNs, which is more conducive to extracting the difference information between the modalities, removing redundant interference information between the modalities, and reducing the original features at the same time. The size of the neighborhood can adapt to the difference of tumor size in different image layers of the same patient and further improve the segmentation accuracy of MRI brain tumors. The experimental results prove that it can adapt to the differences and variability between the modalities of different patients to improve the segmentation accuracy of brain tumors.
APA, Harvard, Vancouver, ISO und andere Zitierweisen

Dissertationen zum Thema "Segmentation Multimodale"

1

Bricq, Stéphanie. „Segmentation d’images IRM anatomiques par inférence bayésienne multimodale et détection de lésions“. Université Louis Pasteur (Strasbourg) (1971-2008), 2008. https://publication-theses.unistra.fr/public/theses_doctorat/2008/BRICQ_Stephanie_2008.pdf.

Der volle Inhalt der Quelle
Annotation:
L'imagerie médicale fournit un nombre croissant de données. La segmentation automatique est devenue une étape fondamentale pour l'analyse quantitative de ces images dans de nombreuses pathologies cérébrales comme la sclérose en plaques (SEP). Nous avons focalisé notre étude sur la segmentation d'IRM cérébrales. Nous avons d'abord proposé une méthode de segmentation des tissus cérébraux basée sur le modèle des chaînes de Markov cachées, permettant d'inclure l'information a priori apportée par un atlas probabiliste et prenant en compte les principaux artefacts présents sur les images IRM. Nous avons ensuite étendu cette méthode à la détection de lésions SEP grâce à un estimateur robuste. Nous avons également développé une méthode de segmentation d'IRM 3D basée sur les contours actifs statistiques pour raffiner la segmentation des lésions. Les résultats obtenus ont été comparés avec d'autres méthodes de segmentation et avec des segmentations manuelles réalisées par des médecins
Medical imaging provides a growing number of data. Automatic segmentation has become a fundamental step for quantitative analysis of these images in many brain diseases such as multiple sclerosis (MS). We focused our study on brain MRI segmentation and MS lesion detection. At first we proposed a method of brain tissue segmentation based on hidden Markov chains taking into account neighbourhood information. This method can also include prior information provided by a probabilistic atlas and takes into account the artefacts appearing on MR images. Then we extended this method to detect MS lesions thanks to a robust estimator and prior information provided by a probabilistic atlas. We have also developed a 3D MRI segmentation method based on statistical active contours to refine the lesion segmentation. The results were compared with other existing methods of segmentation, and with manual expert segmentations
APA, Harvard, Vancouver, ISO und andere Zitierweisen
2

Bricq, Stéphanie Collet Christophe Armspach Jean-Paul. „Segmentation d'images IRM anatomiques par inférence bayésienne multimodale et détection de lésions“. Strasbourg : Université de Strasbourg, 2009. http://eprints-scd-ulp.u-strasbg.fr:8080/1143/01/BRICQ_Stephanie_2008-protege.pdf.

Der volle Inhalt der Quelle
APA, Harvard, Vancouver, ISO und andere Zitierweisen
3

Toulouse, Tom. „Estimation par stéréovision multimodale de caractéristiques géométriques d’un feu de végétation en propagation“. Thesis, Corte, 2015. http://www.theses.fr/2015CORT0009/document.

Der volle Inhalt der Quelle
Annotation:
Les travaux menés dans cette thèse concernent le développement d'un dispositif de vision permettant l'estimation de caractéristiques géométriques d'un feu de végétation en propagation. Ce dispositif est composé de plusieurs systèmes de stéréovision multimodaux générant des paires d'images stéréoscopiques à partir desquelles des points tridimensionnels sont calculés et les caractéristiques géométriques de feu tels que sa position, vitesse, hauteur, profondeur, inclinaison, surface et volume sont estimées. La première contribution importante de cette thèse est la détection de pixels de feu de végétation. Tous les algorithmes de détection de pixels de feu de la littérature ainsi que ceux développés dans le cadre de cette thèse ont été évalués sur une base de 500 images de feux de végétation acquises dans le domaine du visible et caractérisées en fonction des propriétés du feu dans l'image (couleur, fumée, luminosité). Cinq algorithmes de détection de pixels de feu de végétation basés sur la fusion de données issues d'images acquises dans le domaine du visible et du proche-infrarouge ont également été développés et évalués sur une autre base de données composée de 100 images multimodales caractérisées. La deuxième contribution importante de cette thèse concerne l'utilisation de méthodes de fusion d'images pour l'optimisation des points appariés entre les images multimodales stéréoscopiques.La troisième contribution importante de cette thèse est l'estimation des caractéristiques géométriques de feu à partir de points tridimensionnels obtenus depuis plusieurs paires d'images stéréoscopiques et recalés à l'aide de relevés GPS et d'inclinaison de tous les dispositifs de vision.Le dispositif d'estimation de caractéristiques géométriques à partir de systèmes de stéréovision a été évalué sur des objets rigides de dimensions connues et a permis d'obtenir les informations souhaitées avec une bonne précision. Les résultats des données obtenues pour des feux de végétation en propagation sont aussi présentés
This thesis presents the geometrical characteristics measurement of spreading vegetation fires with multimodal stereovision systems. Image processing and 3D registration are used in order to obtain a three-dimensional modeling of the fire at each instant of image acquisition and then to compute fire front characteristics like its position, its rate of spread, its height, its width, its inclination, its surface and its volume. The first important contribution of this thesis is the fire pixel detection. A benchmark of fire pixel detection algorithms and of those that are developed in this thesis have been on a database of 500 vegetation fire images of the visible spectra which have been characterized according to the fire properties in the image (color, smoke, luminosity). Five fire pixel detection algorithms based on fusion of data from visible and near-infrared spectra images have also been developed and tested on another database of 100 multimodal images. The second important contribution of this thesis is about the use of images fusion for the optimization of the matching point’s number between the multimodal stereo images.The second important contribution of this thesis is the registration method of 3D fire points obtained with stereovision systems. It uses information collected from a housing containing a GPS and an IMU card which is positioned on each stereovision systems. With this registration, a method have been developed to extract the geometrical characteristics when the fire is spreading.The geometrical characteristics estimation device have been evaluated on a car of known dimensions and the results obtained confirm the good accuracy of the device. The results obtained from vegetation fires are also presented
APA, Harvard, Vancouver, ISO und andere Zitierweisen
4

Kijak, Ewa. „Structuration multimodale des vidéos de sport par modèles stochastiques“. Phd thesis, Université Rennes 1, 2003. http://tel.archives-ouvertes.fr/tel-00532944.

Der volle Inhalt der Quelle
Annotation:
Cette étude présente une méthode de structuration d'une vidéo utilisant des indices sonores et visuels. Cette méthode repose sur un modèle statistique de l'entrelacement temporel des plans de la vidéo. Le cadre général de la modélisation est celui des modèles de Markov cachés. Les indices visuels sont utilisés pour caractériser le type des plans. Les indices audio décrivent les événements sonores apparaissant durant un plan. La structure de la vidéo est représentée par un modèle de Markov caché hiérarchique, intégrant les informations a priori sur le contenu de la vidéo, ainsi que sur les règles d'édition. L'approche est validée dans le cadre des vidéos de tennis, ce dernier présentant une structure intrinsèque hiérarchique bien définie. En résultat de l'analyse de l'entrelacement temporel des différents types de plans, des scènes caractéristiques du tennis sont identifiées. De plus, chaque plan de la vidéo est assigné à un niveau de hiérarchie décrit en terme de point, jeu et set. Cette classification et segmentation simultanées de la structure globale de la vidéo peuvent être utilisées pour la création de résumés vidéo ou pour permettre une navigation non linéaire dans le document vidéo.
APA, Harvard, Vancouver, ISO und andere Zitierweisen
5

GAUTHIER, GERVAIS. „Applications de la morphologie mathematique fonctionnelle : analyse des textures en niveaux de gris et segmentation par approche multimodale“. Caen, 1995. http://www.theses.fr/1995CAEN2050.

Der volle Inhalt der Quelle
Annotation:
Les materiaux sont etudies par analyse de la texture interne donnant acces aux proprietes thermiques, electriques et mecaniques et par analyse de la forme externe (frottements et proprietes catalytiques). La premiere partie s'attache a la caracterisation de la forme externe. Les moyens d'observation sont presentes et critiques. Les differents parametres de mesure lies a la rugosite sont extraits soit de la surface, soit de profils verticaux, soit de sections horizontales. Leur caracterisation est insuffisante ; il est donc necessaire de recourir a l'emploi de fonctions d'abord de nature metrique et ensuite de nature topologique. Les granulometries morphologiques en niveaux de gris permettent de quantifier les tailles des anfractuosites et des asperites. Ensuite, on definit d'une maniere analogue les fonctions de rugosite, dont une est independante des anamorphoses. Les surfaces non planes sont etudiees a l'aide de fonctions de mesure dependant d'un parametre de hauteur d'inondation. Trois processus sont alors definis: l'immersion, l'inondation par defaut et par exces est rapidement ecarte par manque de stabilite. L'immersion renseigne sur le degre de symetrie du relief et donne des coefficients de taille des pics et des creux, tandis que l'inondation par defaut caracterise la microrugosite. Dans la seconde partie, un exemple d'analyse de la texture interne est decrit. Une procedure de segmentation automatique des cermets wc-co est proposee. Puis, des mesures sont realisees sur les images resultantes ; elles sont alors comparees aux mesures effectuees sur les images segmentees par un operateur qualifie ; les ecarts de mesures sont inferieurs aux fluctuations statistiques: les resultats sont donc probants
APA, Harvard, Vancouver, ISO und andere Zitierweisen
6

Pham, Quoc Cuong. „Segmentation et mise en correspondance en imagerie cardiaque multimodale conduites par un modèle anatomique bi-cavités du coeur“. Grenoble INPG, 2002. http://www.theses.fr/2002INPG0153.

Der volle Inhalt der Quelle
Annotation:
L'imagerie cardiaque multimodale permet d'appréhender l'anatomie et les différents aspects fonctionnels du coeur, avec une précision croissante. Cette connaissance est essentielle dans le cadre de l'étude des pathologies ischémiques. Nous nous intéressons en premier lieu à l'extraction automatique de l'anatomie cardiaque à partir d'images par résonance magnétique. Notre approche de segmentation s'appuie sur l'utilisation d'un gabarit déformable élastique composé d'un modèle topologique et géométrique volumique des deux ventricules du coeur et d'un modèle mécanique de déformation élastique. Le gabarit déformable évolue sous l'action d'un champ de forces issu de l'image. Un modèle physique de régularisation des interfaces du modèle proposé. Nous montrons ensuite que la prise en compte de la non-linéarité géométrique consistant à déplacer le domaine de manière incrémentale, et l'introduction d'une contrainte de champ nul dans l'algorithme de minimisation permettent d'améliorer significativement la converence du modèle. Les performances de ces méthodes sont illustrées sur des cas de simulation et sur 10 cas cliniques. Dans une seconde partie, nous nous attaquons au problème de la mise en correspondance d'images cardiaques multimodalité. Une méthode de recalage affine modèle/image basée sur un critère à optimiser à la fois géométrique et iconique est présentée. Cette technique est utilisée efficacement comme initiation du modèle déformable pour la segmentation. Enfin, nous présentons une stratégie de mise en correspondance de données cardiaques permettant de combiner des informations de morphologie (imagerie par résonance magnétique), de métabolisme (tomographie par émission de positions) et d'activité électromagnétique (magnétocardiographie), et d'obtenir des modèles 3-D anatomo-fonctionnels individualisés du coeur. De tels outils pourront être exploités avantageusement en recherche clinique pour l'évaluation de l'état fonctionnel du myocarde ischémique.
APA, Harvard, Vancouver, ISO und andere Zitierweisen
7

Irace, Zacharie. „Modélisation statistique et segmentation d'images TEP : application à l'hétérogénéité et au suivi de tumeurs“. Phd thesis, Toulouse, INPT, 2014. http://oatao.univ-toulouse.fr/12201/1/irace.pdf.

Der volle Inhalt der Quelle
Annotation:
Cette thèse étudie le traitement statistique des images TEP. Plus particulièrement, la distribution binomiale négative est proposée pour modéliser l’activité d’une région mono-tissulaire. Cette représentation a l’avantage de pouvoir prendre en compte les variations d’activité biologique (ou hétérogénéité) d’un même tissu. A partir de ces résultats, il est proposé de modéliser la distribution de l’image TEP entière comme un mélange spatialement cohérent de lois binomiales négatives. Des méthodes Bayésiennes sont considérées pour la segmentation d’images TEP et l’estimation conjointe des paramètres du modèle. La cohérence spatiale inhérente aux tissus biologiques est modélisée par un champ aléatoire de Potts-Markov pour représenter la dépendance locale entre les composantes du mélange. Un algorithme original de Monte Carlo par Chaîne de Markov (MCMC) est utilisé, faisant appel aux notions d’échantillonnage dans un espace Riemannien et d’opérateurs proximaux. L’approche proposée est appliquée avec succès à la segmentation de tumeurs en imagerie TEP. Cette méthode est ensuite étendue d’une part en intégrant au processus de segmentation des informations anatomiques acquises par tomodensitométrie (TDM), et d’autre part en traitant une série temporelle d’images correspondant aux différentes phases de respiration. Un modèle de mélange de distributions bivariées binomiale négative - normale est proposé pour représenter les images dynamiques TEP et TDM fusionnées. Un modèle Bayésien hiérarchique a été élaboré comprenant un champ de Potts-Markov à quatre dimensions pour respecter la cohérence spatiale et temporelle des images PET-TDM dynamiques. Le modèle proposé montre une bonne qualité d’ajustement aux données et les résultats de segmentation obtenus sont visuellement en concordance avec les structures anatomiques et permettent la délimitation et le suivi de la tumeur.
APA, Harvard, Vancouver, ISO und andere Zitierweisen
8

Toulouse, Tom. „Estimation par stéréovision multimodale de caractéristiques géométriques d'un feu de végétation en propagation“. Doctoral thesis, Université Laval, 2015. http://hdl.handle.net/20.500.11794/26472.

Der volle Inhalt der Quelle
Annotation:
Les travaux menés dans cette thèse concernent le développement d’un dispositif de vision permettant l’estimation de caractéristiques géométriques d’un feu de végétation en propagation. Ce dispositif est composé de plusieurs systèmes de stéréovision multimodaux générant des paires d’images stéréoscopiques à partir desquelles des points tridimensionnels sont calculés et les caractéristiques géométriques de feu tels que sa position, vitesse, hauteur, profondeur, inclinaison, surface et volume sont estimées. La première contribution importante de cette thèse est la détection de pixels de feu de végétation. Tous les algorithmes de détection de pixels de feu de la littérature ainsi que ceux développés dans le cadre de cette thèse ont été évalués sur une base de 500 images de feux de végétation acquises dans le domaine du visible et caractérisées en fonction des propriétés du feu dans l’image (couleur, fumée, luminosité). Cinq algorithmes de détection de pixels de feu de végétation basés sur la fusion de données issues d’images acquises dans le domaine du visible et du proche-infrarouge ont également été développés et évalués sur une autre base de données composée de 100 images multimodales caractérisées. La deuxième contribution importante de cette thèse concerne l’utilisation de méthodes de fusion d’images pour l’optimisation des points appariés entre les images multimodales stéréoscopiques. La troisième contribution importante de cette thèse est l’estimation des caractéristiques géométriques de feu à partir de points tridimensionnels obtenus depuis plusieurs paires d’images stéréoscopiques et recalés à l’aide de relevés GPS et d’inclinaison de tous les dispositifs de vision. Le dispositif d’estimation de caractéristiques géométriques à partir de systèmes de stéréovision a été évalué sur des objets rigides de dimensions connues et a permis d’obtenir les informations souhaitées avec une bonne précision. Les résultats des données obtenues pour des feux de végétation en propagation sont aussi présentés. Mots clefs : Feux de forêt, stéréovision, traitement d’images, segmentation, multimodal.
This thesis presents the geometrical characteristics measurement of spreading vegetation fires with multimodal stereovision systems. Image processing and 3D registration are used in order to obtain a three-dimensional modeling of the fire at each instant of image acquisition and then to compute fire front characteristics like its position, its rate of spread, its height, its width, its inclination, its surface and its volume. The first important contribution of this thesis is the fire pixel detection. A benchmark of fire pixel detection algorithms of the litterature and of those that are developed in this thesis have been on a database of 500 vegetation fire images of the visible spectra which have been characterized according to the fire properties in the image (color, smoke, luminosity). Five fire pixel detection algorithms based on fusion of data from visible and near-infrared spectra images have also been developed and tested on another database of 100 multimodal images. The second important contribution of this thesis is about the use of images fusion for the optimization of the matching point’s number between the multimodal stereo images. The second important contribution of this thesis is the registration method of 3D fire points obtained with stereovision systems. It uses information collected from a housing containing a GPS and an IMU card which is positioned on each stereovision systems. With this registration, a method have been developed to extract the geometrical characteristics when the fire is spreading. The geometrical characteristics estimation device have been evaluated on a car of known dimensions and the results obtained confirm the good accuracy of the device. The results obtained from vegetation fires are also presented. Key words: wildland fire, stereovision, image processing segmentation, multimodal.
APA, Harvard, Vancouver, ISO und andere Zitierweisen
9

Baban, a. erep Thierry Roland. „Contribution au développement d'un système intelligent de quantification des nutriments dans les repas d'Afrique subsaharienne“. Electronic Thesis or Diss., Université de Toulouse (2023-....), 2024. http://www.theses.fr/2024TLSEP100.

Der volle Inhalt der Quelle
Annotation:
La malnutrition, qu'elle soit liée à un apport insuffisant ou excessif en nutriments, représente un défi mondial de santé publique touchant des milliards de personnes. Elle affecte tous les systèmes organiques en étant un facteur majeur de risque pour les maladies non transmissibles telles que les maladies cardiovasculaires, le diabète et certains cancers. Évaluer l'apport alimentaire est crucial pour prévenir la malnutrition, mais cela reste un défi. Les méthodes traditionnelles d'évaluation alimentaire sont laborieuses et sujettes aux biais. Les avancées en IA ont permis la conception de VBDA, solution prometteuse pour analyser automatiquement les images alimentaires afin d'estimer les portions et la composition nutritionnelle. Cependant, la segmentation des images alimentaires dans un VBDA rencontre des difficultés en raison de la structure non rigide des aliments, de la variation intra-classe élevée (où le même type d'aliment peut apparaître très différent), de la ressemblance inter-classe (où différents types d'aliments semblent visuellement très similaires) et de la rareté des ensembles de données disponibles publiquement.Presque toutes les recherches sur la segmentation alimentaire se sont concentrées sur les aliments asiatiques et occidentaux, en l'absence de bases de données pour les cuisines africaines. Cependant, les plats africains impliquent souvent des classes alimentaires mélangées, rendant la segmentation précise difficile. De plus, la recherche s'est largement concentrée sur les images RGB, qui fournissent des informations sur la couleur et la texture mais pourraient manquer de suffisamment de détails géométriques. Pour y remédier, la segmentation RGB-D combine des données de profondeur avec des images RGB. Les images de profondeur fournissent des détails géométriques cruciaux qui enrichissent les données RGB, améliorent la discrimination des objets et sont robustes face à des facteurs tels que l'illumination et le brouillard. Malgré son succès dans d'autres domaines, la segmentation RGB-D pour les aliments est peu explorée en raison des difficultés à collecter des images de profondeur des aliments.Cette thèse apporte des contributions clés en développant de nouveaux modèles d'apprentissage profond pour la segmentation d'images RGB (mid-DeepLabv3+) et RGB-D (ESeNet-D) et en introduisant les premiers ensembles de données axés sur les images alimentaires africaines. Mid-DeepLabv3+ est basé sur DeepLabv3+, avec un backbone ResNet simplifié et une couche de saut (middle layer) ajoutée dans le décodeur, ainsi que des couches mécanisme d'attention SimAM. Ce model offre un excellent compromis entre performance et efficacité computationnelle. ESeNet-D est composé de deux branches d'encodeurs utilisant EfficientNetV2 comme backbone, avec un bloc de fusion pour l'intégration multi-échelle et un décodeur employant des convolutions auto-calibrée et interpolations entrainées pour une segmentation précise. ESeNet-D surpasse de nombreux modèles de référence RGB et RGB-D tout en ayant une charge computationnelle plus faible. Nos expériences ont montré que, lorsqu'elles sont correctement intégrées, les informations relatives à la profondeur peuvent améliorer de manière significative la précision de la segmentation des images alimentaires.Nous présentons également deux nouvelles bases de données : AfricaFoodSeg pour la segmentation « aliment/non-aliment » avec 3067 images (2525 pour l'entraînement, 542 pour la validation), et CamerFood, axée sur la cuisine camerounaise. Les ensembles de données CamerFood comprennent CamerFood10 avec 1422 images et dix classes alimentaires, et CamerFood15, une version améliorée avec 15 classes alimentaires, 1684 images d'entraînement et 514 images de validation. Enfin, nous abordons le défi des données de profondeur rares dans la segmentation RGB-D des aliments en démontrant que les modèles MDE peuvent aider à générer des cartes de profondeur efficaces pour les ensembles de données RGB-D
Malnutrition, including under- and overnutrition, is a global health challenge affecting billions of people. It impacts all organ systems and is a significant risk factor for noncommunicable diseases such as cardiovascular diseases, diabetes, and some cancers. Assessing food intake is crucial for preventing malnutrition but remains challenging. Traditional methods for dietary assessment are labor-intensive and prone to bias. Advancements in AI have made Vision-Based Dietary Assessment (VBDA) a promising solution for automatically analyzing food images to estimate portions and nutrition. However, food image segmentation in VBDA faces challenges due to food's non-rigid structure, high intra-class variation (where the same dish can look very different), inter-class resemblance (where different foods appear similar) and scarcity of publicly available datasets.Almost all food segmentation research has focused on Asian and Western foods, with no datasets for African cuisines. However, African dishes often involve mixed food classes, making accurate segmentation challenging. Additionally, research has largely focus on RGB images, which provides color and texture but may lack geometric detail. To address this, RGB-D segmentation combines depth data with RGB images. Depth images provide crucial geometric details that enhance RGB data, improve object discrimination, and are robust to factors like illumination and fog. Despite its success in other fields, RGB-D segmentation for food is underexplored due to difficulties in collecting food depth images.This thesis makes key contributions by developing new deep learning models for RGB (mid-DeepLabv3+) and RGB-D (ESeNet-D) image segmentation and introducing the first food segmentation datasets focused on African food images. Mid-DeepLabv3+ is based on DeepLabv3+, featuring a simplified ResNet backbone with and added skip layer (middle layer) in the decoder and SimAM attention mechanism. This model offers an optimal balance between performance and efficiency, matching DeepLabv3+'s performance while cutting computational load by half. ESeNet-D consists on two encoder branches using EfficientNetV2 as backbone, with a fusion block for multi-scale integration and a decoder employing self-calibrated convolution and learned interpolation for precise segmentation. ESeNet-D outperforms many RGB and RGB-D benchmark models while having fewer parameters and FLOPs. Our experiments show that, when properly integrated, depth information can significantly improve food segmentation accuracy. We also present two new datasets: AfricaFoodSeg for “food/non-food” segmentation with 3,067 images (2,525 for training, 542 for validation), and CamerFood focusing on Cameroonian cuisine. CamerFood datasets include CamerFood10 with 1,422 images from ten food classes, and CamerFood15, an enhanced version with 15 food classes, 1,684 training images, and 514 validation images. Finally, we address the challenge of scarce depth data in RGB-D food segmentation by demonstrating that Monocular Depth Estimation (MDE) models can aid in generating effective depth maps for RGB-D datasets
APA, Harvard, Vancouver, ISO und andere Zitierweisen
10

Ercolessi, Philippe. „Extraction multimodale de la structure narrative des épisodes de séries télévisées“. Toulouse 3, 2013. http://thesesups.ups-tlse.fr/2056/.

Der volle Inhalt der Quelle
Annotation:
Nos contributions portent sur l'extraction de la structure narrative d'épisodes de séries télévisées à deux niveaux hiérarchiques. Le premier niveau de structuration consiste à retrouver les transitions entre les scènes à partir d'une analyse de la couleur des images et des locuteurs présents dans les scènes. Nous montrons que l'analyse des locuteurs permet d'améliorer le résultat d'une segmentation en scènes basée sur la couleur. Il est courant de voir plusieurs histoires (ou lignes d'actions) racontées en parallèle dans un même épisode de série télévisée. Ainsi, le deuxième niveau de structuration consiste à regrouper les scènes en histoires. Nous cherchons à désentrelacer les histoires pour pouvoir, par exemple, visualiser les différentes lignes d'actions indépendamment. La principale difficulté consiste à déterminer les descripteurs les plus pertinents permettant de regrouper les scènes appartenant à une même histoire. A ce niveau, nous étudions également l'utilisation de descripteurs provenant des trois modalités différentes précédemment exposées. Nous proposons en outre des méthodes permettant de fusionner les informations provenant de ces trois modalités. Pour répondre à la variabilité de la structure narrative des épisodes de séries télévisées, nous proposons une méthode qui s'adapte à chaque épisode. Elle permet de choisir automatiquement la méthode de regroupement la plus pertinente parmi les différentes méthodes proposées. Enfin, nous avons développé StoViz, un outil de visualisation de la structure d'un épisode de série télévisée (scènes et histoires). Il permet de faciliter la navigation au sein d'un épisode, en montrant les différentes histoires racontées en parallèle dans l'épisode. Il permet également la lecture des épisodes histoire par histoire, et la visualisation d'un court résumé de l'épisode en donnant un aperçu de chaque histoire qui y est racontée
Our contributions concern the extraction of the structure of TV series episodes at two hierarchical levels. The first level of structuring is to find the scene transitions based on the analysis of the color information and the speakers involved in the scenes. We show that the analysis of the speakers improves the result of a color-based segmentation into scenes. It is common to see several stories (or lines of action) told in parallel in a single TV series episode. Thus, the second level of structure is to cluster scenes into stories. We seek to deinterlace the stories in order to visualize the different lines of action independently. The main difficulty is to determine the most relevant descriptors for grouping scenes belonging to the same story. We explore the use of descriptors from the three different modalities described above. We also propose methods to combine these three modalities. To address the variability of the narrative structure of TV series episodes, we propose a method that adapts to each episode. It can automatically select the most relevant clustering method among the various methods we propose. Finally, we developed StoViz, a tool for visualizing the structure of a TV series episode (scenes and stories). It allows an easy browsing of each episode, revealing the different stories told in parallel. It also allows playback of episodes story by story, and visualizing a summary of the episode by providing a short overview of each story
APA, Harvard, Vancouver, ISO und andere Zitierweisen

Bücher zum Thema "Segmentation Multimodale"

1

Menze, Bjoern, und Spyridon Bakas, Hrsg. Multimodal Brain Tumor Segmentation and Beyond. Frontiers Media SA, 2021. http://dx.doi.org/10.3389/978-2-88971-170-3.

Der volle Inhalt der Quelle
APA, Harvard, Vancouver, ISO und andere Zitierweisen

Buchteile zum Thema "Segmentation Multimodale"

1

Poulisse, Gert-Jan, und Marie-Francine Moens. „Multimodal News Story Segmentation“. In Proceedings of the First International Conference on Intelligent Human Computer Interaction, 95–101. New Delhi: Springer India, 2009. http://dx.doi.org/10.1007/978-81-8489-203-1_7.

Der volle Inhalt der Quelle
APA, Harvard, Vancouver, ISO und andere Zitierweisen
2

Shah, Rajiv, und Roger Zimmermann. „Lecture Video Segmentation“. In Multimodal Analysis of User-Generated Multimedia Content, 173–203. Cham: Springer International Publishing, 2017. http://dx.doi.org/10.1007/978-3-319-61807-4_6.

Der volle Inhalt der Quelle
APA, Harvard, Vancouver, ISO und andere Zitierweisen
3

Wang, Yaping, Hongjun Jia, Pew-Thian Yap, Bo Cheng, Chong-Yaw Wee, Lei Guo und Dinggang Shen. „Groupwise Segmentation Improves Neuroimaging Classification Accuracy“. In Multimodal Brain Image Analysis, 185–93. Berlin, Heidelberg: Springer Berlin Heidelberg, 2012. http://dx.doi.org/10.1007/978-3-642-33530-3_16.

Der volle Inhalt der Quelle
APA, Harvard, Vancouver, ISO und andere Zitierweisen
4

Dielmann, Alfred, und Steve Renals. „Multistream Dynamic Bayesian Network for Meeting Segmentation“. In Machine Learning for Multimodal Interaction, 76–86. Berlin, Heidelberg: Springer Berlin Heidelberg, 2005. http://dx.doi.org/10.1007/978-3-540-30568-2_7.

Der volle Inhalt der Quelle
APA, Harvard, Vancouver, ISO und andere Zitierweisen
5

Zhang, Daoqiang, Qimiao Guo, Guorong Wu und Dinggang Shen. „Sparse Patch-Based Label Fusion for Multi-Atlas Segmentation“. In Multimodal Brain Image Analysis, 94–102. Berlin, Heidelberg: Springer Berlin Heidelberg, 2012. http://dx.doi.org/10.1007/978-3-642-33530-3_8.

Der volle Inhalt der Quelle
APA, Harvard, Vancouver, ISO und andere Zitierweisen
6

Soldea, Octavian, Trung Doan, Andrew Webb, Mark van Buchem, Julien Milles und Radu Jasinschi. „Simultaneous Brain Structures Segmentation Combining Shape and Pose Forces“. In Multimodal Brain Image Analysis, 143–51. Berlin, Heidelberg: Springer Berlin Heidelberg, 2011. http://dx.doi.org/10.1007/978-3-642-24446-9_18.

Der volle Inhalt der Quelle
APA, Harvard, Vancouver, ISO und andere Zitierweisen
7

Poot, Dirk H. J., Marleen de Bruijne, Meike W. Vernooij, M. Arfan Ikram und Wiro J. Niessen. „Improved Tissue Segmentation by Including an MR Acquisition Model“. In Multimodal Brain Image Analysis, 152–59. Berlin, Heidelberg: Springer Berlin Heidelberg, 2011. http://dx.doi.org/10.1007/978-3-642-24446-9_19.

Der volle Inhalt der Quelle
APA, Harvard, Vancouver, ISO und andere Zitierweisen
8

Yu, Hao, Jie Zhao und Li Zhang. „Vessel Segmentation via Link Prediction of Graph Neural Networks“. In Multiscale Multimodal Medical Imaging, 34–43. Cham: Springer Nature Switzerland, 2022. http://dx.doi.org/10.1007/978-3-031-18814-5_4.

Der volle Inhalt der Quelle
APA, Harvard, Vancouver, ISO und andere Zitierweisen
9

Wang, Yi-Qing, und Giovanni Palma. „Liver Segmentation Quality Control in Multi-sequence MR Studies“. In Multiscale Multimodal Medical Imaging, 54–62. Cham: Springer Nature Switzerland, 2022. http://dx.doi.org/10.1007/978-3-031-18814-5_6.

Der volle Inhalt der Quelle
APA, Harvard, Vancouver, ISO und andere Zitierweisen
10

Cárdenes, Rubén, Meritxell Bach, Ying Chi, Ioannis Marras, Rodrigo de Luis, Mats Anderson, Peter Cashman und Matthieu Bultelle. „Multimodal Evaluation for Medical Image Segmentation“. In Computer Analysis of Images and Patterns, 229–36. Berlin, Heidelberg: Springer Berlin Heidelberg, 2007. http://dx.doi.org/10.1007/978-3-540-74272-2_29.

Der volle Inhalt der Quelle
APA, Harvard, Vancouver, ISO und andere Zitierweisen

Konferenzberichte zum Thema "Segmentation Multimodale"

1

Wang, Zheng, Xinliang Zhang und Junkun Zhao. „Sribble Supervised Multimodal Medical Image Segmentation“. In 2024 International Joint Conference on Neural Networks (IJCNN), 1–9. IEEE, 2024. http://dx.doi.org/10.1109/ijcnn60899.2024.10650603.

Der volle Inhalt der Quelle
APA, Harvard, Vancouver, ISO und andere Zitierweisen
2

Xia, Zhuofan, Dongchen Han, Yizeng Han, Xuran Pan, Shiji Song und Gao Huang. „GSVA: Generalized Segmentation via Multimodal Large Language Models“. In 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 3858–69. IEEE, 2024. http://dx.doi.org/10.1109/cvpr52733.2024.00370.

Der volle Inhalt der Quelle
APA, Harvard, Vancouver, ISO und andere Zitierweisen
3

Ahmad, Nisar, und Yao-Tien Chen. „3D Brain Tumor Segmentation in Multimodal MRI Images“. In 2024 International Conference on Consumer Electronics - Taiwan (ICCE-Taiwan), 543–44. IEEE, 2024. http://dx.doi.org/10.1109/icce-taiwan62264.2024.10674099.

Der volle Inhalt der Quelle
APA, Harvard, Vancouver, ISO und andere Zitierweisen
4

Dong, Shaohua, Yunhe Feng, Qing Yang, Yan Huang, Dongfang Liu und Heng Fan. „Efficient Multimodal Semantic Segmentation via Dual-Prompt Learning“. In 2024 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), 14196–203. IEEE, 2024. https://doi.org/10.1109/iros58592.2024.10801872.

Der volle Inhalt der Quelle
APA, Harvard, Vancouver, ISO und andere Zitierweisen
5

Awudong, Buhailiqiemu, und Qi Li. „Improved Brain Tumor Segmentation Framework Based on Multimodal MRI and Cascaded Segmentation Strategy“. In 2024 International Conference on Intelligent Computing and Data Mining (ICDM), 58–61. IEEE, 2024. http://dx.doi.org/10.1109/icdm63232.2024.10762056.

Der volle Inhalt der Quelle
APA, Harvard, Vancouver, ISO und andere Zitierweisen
6

Xu, Rongtao, Changwei Wang, Duzhen Zhang, Man Zhang, Shibiao Xu, Weiliang Meng und Xiaopeng Zhang. „DefFusion: Deformable Multimodal Representation Fusion for 3D Semantic Segmentation“. In 2024 IEEE International Conference on Robotics and Automation (ICRA), 7732–39. IEEE, 2024. http://dx.doi.org/10.1109/icra57147.2024.10610465.

Der volle Inhalt der Quelle
APA, Harvard, Vancouver, ISO und andere Zitierweisen
7

Sankar, Shreeram, D. V. Santhosh Kumar, P. Kumar und M. Rakesh Kumar. „Multimodal Fusion for Brain Medical Image Segmentation using MMSegNet“. In 2024 4th International Conference on Intelligent Technologies (CONIT), 1–11. IEEE, 2024. http://dx.doi.org/10.1109/conit61985.2024.10627205.

Der volle Inhalt der Quelle
APA, Harvard, Vancouver, ISO und andere Zitierweisen
8

Han, Siyuan, Yao Wang und Qian Wang. „Multimodal Medical Image Segmentation Algorithm Based on Convolutional Neural Networks“. In 2024 Second International Conference on Networks, Multimedia and Information Technology (NMITCON), 1–5. IEEE, 2024. http://dx.doi.org/10.1109/nmitcon62075.2024.10698930.

Der volle Inhalt der Quelle
APA, Harvard, Vancouver, ISO und andere Zitierweisen
9

Sun, Yue, Zelong Zhang, Hong Shangguan, Jie Yang, Xiong Zhang und Yuhuan Zhang. „A Multiscale Attention Multimodal Cooperative Learning Stroke Lesion Segmentation Network“. In 2024 9th International Conference on Intelligent Computing and Signal Processing (ICSP), 1084–87. IEEE, 2024. http://dx.doi.org/10.1109/icsp62122.2024.10743876.

Der volle Inhalt der Quelle
APA, Harvard, Vancouver, ISO und andere Zitierweisen
10

Huang, Chao, Weichao Cai, Qiuping Jiang und Zhihua Wang. „Multimodal Representation Distribution Learning for Medical Image Segmentation“. In Thirty-Third International Joint Conference on Artificial Intelligence {IJCAI-24}. California: International Joint Conferences on Artificial Intelligence Organization, 2024. http://dx.doi.org/10.24963/ijcai.2024/459.

Der volle Inhalt der Quelle
Annotation:
Medical image segmentation is one of the most critical tasks in medical image analysis. However, the performance of existing methods is limited by the lack of high-quality labeled data due to the expensive data annotation. To alleviate this limitation, we propose a novel multi-modal learning method for medical image segmentation. In our method, medical text annotation is incorporated to compensate for the quality deficiency in image data. Moreover, previous multi-modal fusion methods ignore the commonalities and differences between different modalities. Ideally, the fused features should maximize valuable information while minimizing redundant information. To achieve this goal, we propose a multimodal feature distribution learning method. It is adopted to model the commonalities and differences between text and image. Since medical image segmentation needs to predict detailed segmentation boundaries, we also design a prompt encoder to achieve fine-grained segmentation. Experimental results on three datasets show that the proposed method obtains superior segmentation performance. Source codes will be available at https://github.com/GPIOX/Multimodal.git.
APA, Harvard, Vancouver, ISO und andere Zitierweisen
Wir bieten Rabatte auf alle Premium-Pläne für Autoren, deren Werke in thematische Literatursammlungen aufgenommen wurden. Kontaktieren Sie uns, um einen einzigartigen Promo-Code zu erhalten!

Zur Bibliographie