Relevant bibliographies by topics / Traitement multimodal

Academic literature on the topic 'Traitement multimodal'

Author: Grafiati

Published: 1 June 2024

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the lists of relevant articles, books, theses, conference reports, and other scholarly sources on the topic 'Traitement multimodal.'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Journal articles
Dissertations / Theses
Books
Book chapters

Journal articles on the topic "Traitement multimodal":

Wilkniss, Sandra M., Richard H. Hunter, and Steven M. Silverstein. "Traitement multimodal de l’agressivité et de la violence chez des personnes souffrant de psychose." Santé mentale au Québec 29, no. 2 (October 5, 2005): 143–74. http://dx.doi.org/10.7202/010835ar.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Résumé Dans cet article, les auteurs décrivent les traitements non pharmacologiques qui ont fait preuve d’efficacité pour réduire l’agressivité et la violence chez les personnes souffrant de psychose. Ils présentent ensuite une approche de formulation/planification du traitement qui aborde les influences étiologiques complexes, et les facteurs multiples qui jouent sur le maintien du comportement agressif chez ces patients. Finalement, ils présentent en exemple un cas où l’on se sert de cette approche.

Hodaj, H., J. M. Pellat, A. Dumolard, J. J. Banihachemi, B. Rosnoblet, J. P. Alibeu, and C. Jacquot. "TO30 Traitement multimodal de l’algoneurodystrophie rebelle." Douleurs : Evaluation - Diagnostic - Traitement 8 (October 2007): 80. http://dx.doi.org/10.1016/s1624-5687(07)73172-4.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Jacot, W., X. Quantin, S. Valette, F. Khial, and J. L. Pujol. "185 Traitement multimodal des tumeurs épithéliales thymiques." Revue des Maladies Respiratoires 21 (January 2004): 77. http://dx.doi.org/10.1016/s0761-8425(04)71811-2.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Himmighoffen, Holger, and Heinz Böker. "L’importance de l’électroconvulsivothérapie (ECT) dans le traitement multimodal des troubles dépressifs." Psychotherapie-Wissenschaft 10, no. 2 (October 2020): 74–75. http://dx.doi.org/10.30820/1664-9583-2020-2-74.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Madhi, S., I. Bouassida, A. Abdelkebir, H. Zribi, M. Abdennadher, S. Zairi, A. Ben Mansour, and A. Marghli. "Traitement multimodal des tumeurs de la trachée : résultats chirurgicaux et oncologiques." Revue des Maladies Respiratoires Actualités 15, no. 1 (January 2023): 141. http://dx.doi.org/10.1016/j.rmra.2022.11.202.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Bonnette, P. "Mésothéliome pleural : où en sont la chirurgie radicale et le traitement multimodal ?" Revue de Pneumologie Clinique 67, no. 4 (September 2011): 184–90. http://dx.doi.org/10.1016/j.pneumo.2011.04.002.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Elias, D. "Rationnels de la chirurgie oncologique au sein d’un traitement multimodal des cancers." Journal de Chirurgie 142, no. 5 (September 2005): 284–90. http://dx.doi.org/10.1016/s0021-7697(05)80931-7.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abrous-Anane, S., A. Savignoni, C. Daveau, J. Y. Pierga, C. Gautier, R. Dendale, F. Campana, Y. Kirova, A. Fourquet, and M. Bollet. "Traitement multimodal du cancer du sein inflammatoire : quelle place pour la chirurgie ?" Cancer/Radiothérapie 13, no. 6-7 (October 2009): 690. http://dx.doi.org/10.1016/j.canrad.2009.08.122.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Simeon, C., C. Pepin-Richard, and M. Fine. "Traitement multimodal d’un carcinome mammaire inflammatoire : chirurgie, chimiothérapie et AINS COX-2 sélectif." Pratique Médicale et Chirurgicale de l'Animal de Compagnie 48, no. 3 (July 2013): 79–86. http://dx.doi.org/10.1016/j.anicom.2013.03.002.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Heuberger, Schneider, and Bodis. "Stellenwert der Radiotherapie beim Nicht-kleinzelligen Bronchuskarzinom." Praxis 91, no. 33 (August 1, 2002): 1307–14. http://dx.doi.org/10.1024/0369-8394.91.33.1307.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Le cancer du poumon est la cause la plus fréquente de mort par cancer en Suisse. Environ 80% de tous les cancers du poumon en Suisse sont des carcinomes bronchiques autres que des tumeurs à petites cellules. Malgré les progrès diagnostiques et thérapeutiques, le taux de guérison des cancers autres que ceux à petites cellules n'est pas satisfaisant. Le traitement multimodal (chirurgie, radiothérapie, chimiothérapie) représente une amélioration thérapeutique très prometteuse. Ce travail présente, pour chaque stade tumoral (stade I–IV) du cancer pulmonaire autre que celui à petites cellules la valeur de la radiothérapie primaire radicale ou adjuvante (postopératoire).

More sources

Dissertations / Theses on the topic "Traitement multimodal":

Dourlens, Sébastien. "Multimodal interaction semantic architecture for ambient intelligence." Versailles-St Quentin en Yvelines, 2012. http://www.theses.fr/2012VERS0011.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Il existe encore de nombreux domaines dans lesquels des moyens doivent être explorés pour améliorer l'interaction homme-système. Ces systèmes doivent avoir la capacité de tirer avantage de l'environnement pour améliorer l'interaction. Et ceci afin d'étendre les capacités du système (machine ou robot) dans le but de se rapprocher du langage naturel utilisé par les êtres humains. Nous proposons une méthodologie pour résoudre le problème d'interaction multimodale adaptée aux différents contextes en définissant et modélisant une architecture distribuée qui s'appuie sur les standards du W3C et des services Web (agents sémantiques et services d'entrée / sortie) qui travaillent dans un environnement d'intelligence ambiante. Cette architecture est réalisée en utilisant le modèle des systèmes multi-agents. Afin d'atteindre cet objectif, nous avons besoin de modéliser l'environnement en utilisant un langage de représentation des connaissances et de communication (EKRL, Ontologie). Le modèle de l'environnement obtenu est utilisé dans deux principaux processus d'inférence sémantique: la fusion et la fission des événements à différents niveaux d'abstraction. Ces opérations sont sensibles au contexte. Le système de fusion interprète, comprend l'environnement et détecte le scénario qui se passe. Le système de fission interprète le scénario, le divise en tâches élémentaires et exécute les tâches qui nécessitent la découverte, la sélection et la composition de services appropriés dans l'environnement pour répondre aux différents objectifs. L'adaptation au contexte de l’environnement est basée sur la technique d'apprentissage par renforcement multi-niveaux. L'architecture globale de fusion et fission est validée et développée dans notre framework (agents, services, concentrateurs EKRL) par l'analyse de différentes performances sur des cas d'utilisation tels que la surveillance et l'assistance dans les activités quotidiennes à la maison et en ville
There still exist many fields in which ways are to be explored to improve the human-system interaction. These systems must have the capability to take advantage of the environment in order to improve interaction. This extends the capabilities of system (machine or robot) to better reach natural language used by human beings. We propose a methodology to solve the multimodal interaction problem adapted to several contexts by defining and modelling a distributed architecture relying on W3C standards and web services (semantic agents and input/output services) working in ambient intelligence environment. This architecture is embedded in a multi-agent system modelling technique. In order to achieve this goal, we need to model the environment using a knowledge representation and communication language (EKRL, Ontology). The obtained semantic environment model is used in two main semantic inference processes: fusion and fission of events at different levels of abstraction. They are considered as two context-aware operations. The fusion operation interprets and understands the environment and detects the happening scenario. The multimodal fission operation interprets the scenario, divides it into elementary tasks, and executes these tasks which require the discovery, selection and composition of appropriate services in the environment to accomplish various aims. The adaptation to environmental context is based on multilevel reinforcement learning technique. The overall architecture of fusion and fission is validated under our framework (agents, services, EKRL concentrator), by developing different performance analysis on some use cases such as monitoring and assistance in daily activities at home and in the town

Chlaily, Saloua. "Modèle d'interaction et performances du traitement du signal multimodal." Thesis, Université Grenoble Alpes (ComUE), 2018. http://www.theses.fr/2018GREAT026/document.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Bien que le traitement conjoint des mesures multimodales soit supposé conduire à de meilleures performances que celles obtenues en exploitant une seule modalité ou plusieurs modalités indépendamment, il existe des exemples en littérature qui prouvent que c'est pas toujours vrai. Dans cette thèse, nous analysons rigoureusement, en termes d'information mutuelle et d'erreur d'estimation, les différentes situations de l'analyse multimodale afin de déterminer les conditions conduisant à des performances optimales.Dans la première partie, nous considérons le cas simple de deux ou trois modalités, chacune étant associée à la mesure bruitée d'un signal, avec des liens entre modalités matérialisés par les corrélations entre les parties utiles du signal et par les corrélations les bruits. Nous montrons comment les performances obtenues sont améliorées avec l'exploitation des liens entre les modalités. Dans la seconde partie, nous étudions l'impact sur les performances d'erreurs sur les liens entre modalités. Nous montrons que ces fausses hypothèses dégradent les performances, qui peuvent alors devenir inférieure à celles atteintes avec une seule modalité.Dans le cas général, nous modélisons les multiples modalités comme un canal gaussien bruité. Nous étendons alors des résultats de la littérature en considérant l'impact d'erreurs sur les densités de probabilité du signal et du bruit sur l'information transmise par le canal. Nous analysons ensuite cette relation dans la cas d'un modèle simple de deux modalités. Nos résultats montrent en particulier le fait inattendu qu'une double inadéquation du bruit et du signal peuvent parfois se compenser et ainsi conduire à de très bonnes performances
The joint processing of multimodal measurements is supposed to lead to better performances than those obtained using a single modality or several modalities independently. However, in literature, there are examples that show that is not always true. In this thesis, we analyze, in terms of mutual information and estimation error, the different situations of multimodal analysis in order to determine the conditions to achieve the optimal performances.In the first part, we consider the simple case of two or three modalities, each associated with noisy measurement of a signal. These modalities are linked through the correlations between the useful parts of the signal and the correlations between the noises. We show that the performances are improved if the links between the modalities are exploited. In the second part, we study the impact on performance of wrong links between modalities. We show that these false assumptions decline the performance, which can become lower than the performance achieved using a single modality.In the general case, we model the multiple modalities as a noisy Gaussian channel. We then extend literature results by considering the impact of the errors on signal and noise probability densities on the information transmitted by the channel. We then analyze this relationship in the case of a simple model of two modalities. Our results show in particular the unexpected fact that a double mismatch of the noise and the signal can sometimes compensate for each other, and thus lead to very good performances

Caglayan, Ozan. "Multimodal Machine Translation." Thesis, Le Mans, 2019. http://www.theses.fr/2019LEMA1016/document.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

La traduction automatique vise à traduire des documents d’une langue à une autre sans l’intervention humaine. Avec l’apparition des réseaux de neurones profonds (DNN), la traduction automatique neuronale(NMT) a commencé à dominer le domaine, atteignant l’état de l’art pour de nombreuses langues. NMT a également ravivé l’intérêt pour la traduction basée sur l’interlangue grâce à la manière dont elle place la tâche dans un cadre encodeur-décodeur en passant par des représentations latentes. Combiné avec la flexibilité architecturale des DNN, ce cadre a aussi ouvert une piste de recherche sur la multimodalité, ayant pour but d’enrichir les représentations latentes avec d’autres modalités telles que la vision ou la parole, par exemple. Cette thèse se concentre sur la traduction automatique multimodale(MMT) en intégrant la vision comme une modalité secondaire afin d’obtenir une meilleure compréhension du langage, ancrée de façon visuelle. J’ai travaillé spécifiquement avec un ensemble de données contenant des images et leurs descriptions traduites, où le contexte visuel peut être utile pour désambiguïser le sens des mots polysémiques, imputer des mots manquants ou déterminer le genre lors de la traduction vers une langue ayant du genre grammatical comme avec l’anglais vers le français. Je propose deux approches principales pour intégrer la modalité visuelle : (i) un mécanisme d’attention multimodal qui apprend à prendre en compte les représentations latentes des phrases sources ainsi que les caractéristiques visuelles convolutives, (ii) une méthode qui utilise des caractéristiques visuelles globales pour amorcer les encodeurs et les décodeurs récurrents. Grâce à une évaluation automatique et humaine réalisée sur plusieurs paires de langues, les approches proposées se sont montrées bénéfiques. Enfin,je montre qu’en supprimant certaines informations linguistiques à travers la dégradation systématique des phrases sources, la véritable force des deux méthodes émerge en imputant avec succès les noms et les couleurs manquants. Elles peuvent même traduire lorsque des morceaux de phrases sources sont entièrement supprimés
Machine translation aims at automatically translating documents from one language to another without human intervention. With the advent of deep neural networks (DNN), neural approaches to machine translation started to dominate the field, reaching state-ofthe-art performance in many languages. Neural machine translation (NMT) also revived the interest in interlingual machine translation due to how it naturally fits the task into an encoder-decoder framework which produces a translation by decoding a latent source representation. Combined with the architectural flexibility of DNNs, this framework paved the way for further research in multimodality with the objective of augmenting the latent representations with other modalities such as vision or speech, for example. This thesis focuses on a multimodal machine translation (MMT) framework that integrates a secondary visual modality to achieve better and visually grounded language understanding. I specifically worked with a dataset containing images and their translated descriptions, where visual context can be useful forword sense disambiguation, missing word imputation, or gender marking when translating from a language with gender-neutral nouns to one with grammatical gender system as is the case with English to French. I propose two main approaches to integrate the visual modality: (i) a multimodal attention mechanism that learns to take into account both sentence and convolutional visual representations, (ii) a method that uses global visual feature vectors to prime the sentence encoders and the decoders. Through automatic and human evaluation conducted on multiple language pairs, the proposed approaches were demonstrated to be beneficial. Finally, I further show that by systematically removing certain linguistic information from the input sentences, the true strength of both methods emerges as they successfully impute missing nouns, colors and can even translate when parts of the source sentences are completely removed

Choumane, Ali Siroux Jacques. "Traitement générique des références dans le cadre multimodal parole-image-tactile." Rennes : [s.n.], 2008. ftp://ftp.irisa.fr/techreports/theses/2008/choumane.pdf.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Choumane, Ali. "Traitement générique des références dans le cadre multimodal parole-image-tactile." Rennes 1, 2008. ftp://ftp.irisa.fr/techreports/theses/2008/choumane.pdf.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Nous nous intéressons dans cette thèse aux systèmes de communication homme-machine multimodale qui utilisent les modes suivants : la parole, le geste et le visuel. L'usager communique avec le système par un énoncé oral en langue naturelle et/ou un geste. Dans sa requête, encodée sur les différentes modalités, l'usager exprime son but et désigne des objets (référents) nécessaires à la réalisation de ce but. Le système doit identifier de manière précise et non ambiguë ces objets désignés. Afin d'améliorer la compréhension automatique des requêtes multimodales dans ce contexte, nous proposons un ensemble générique de traitement des modalités, de fusion et de résolution des expressions référentielles. Les principaux aspects de la réalisation consistent en les modélisations du traitement de la langue naturelle dans le contexte de la parole, du traitement du geste et du contexte visuel (utilisation de la saillance visuelle) en prenant en compte les difficultés inhérentes en contexte de la communication multimodale : erreur de reconnaissance de la parole, ambiguïté de la langue naturelle, imprécision du geste due à la performance de l'usager, ambiguïté dans la désignation due à la perception des objets affichés ou à la topologie de l'affichage. Pour l'interprétation complète de la requête nous proposons une méthode de fusion/vérification des résultats des traitements de chaque modalité pour trouver les objets désignés par l'usager
We are interested in multimodal human-computer communication systems that use the following modes: speech, gesture and vision. The user communicates with the system by oral utterance in natural language and/or by gesture. The user's request contains his/her goal and the designation of objects (referents) required to the goal realisation. The system should identify in a precise and non ambiguous way the designated objects. In this context, we aim to improve the understanding process of multimodal requests. Hence, we propose a generic set of processing of modalities, for fusion and for reference resolution. The main aspects of the realisation consist in modeling the natural language processing in speech environment, the gesture processing and the visual context (visual salience use) while taking into account the difficulties in multimodal context: speech recognition errors, natural language ambiguity, gesture imprecision due to the user performance, designation ambiguity due to the perception of the displayed objects or to the display topology. To complete the interpretation of the user's request, we propose a method for fusion/verification of modalities processing results to find the designated objects by the user

Sarrut, David Miguet Serge. "Recalage multimodal et plate-forme d'imagerie médicale à accès distant." [S.l.] : [s.n.], 2000. http://demeter.univ-lyon2.fr:8080/sdx/theses/lyon2/2000/sarrut_d.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Sarrut, David. "Recalage multimodal et plate-forme d'imagerie médicale à accès distant." Lyon 2, 2000. http://theses.univ-lyon2.fr/documents/lyon2/2000/sarrut_d.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Les recherches présentées dans cette thèse s'insèrent dans divers projets concernant le recalage d'images médicales et l'étude de techniques haute-performance destinées aux environnements hospitaliers. Le recalage multimodal consiste à mettre en correspondance un couple d'images de façon à pouvoir fusionner les informations de chacune d'elles. Nous présentons tout d'abord une classification synthétique de nombreuses mesures de similarité en mettant l'accent sur les hypothèses sous-jacentes à la nature des liens entre les distributions d'intensités. Puis nous proposons plusieurs procédures d'interpolation en les comparant aux méthodes usuelles du point de vue de la précision, de la rapidité et de la robustesse vis-à-vis de la stratégie d'optimisation du critère de similarité. Comme les étapes les plus coûteuses en temps de calcul sont les évaluations du critère à travers les transformations (rigides) d'images, nous proposons ensuite un algorithme original permettant d'accélérer substantiellement le processus global. Par la suite, ces techniques de recalage sont appliquées dans le cadre du positionnement de patient en radiothérapie conformationnelle. Nous développons une nouvelle approche permettant une évaluation précise du placement du patient grâce à une recherche par le contenu dans une série d'images pré-calculées. Les résultats obtenus sont encourageants puisque des déplacements importants, typiquement comportant des rotations hors-plan, sont correctement estimés. Dans la deuxième partie de cette thèse, nous développons un système nommé ARAMIS (A Remonte Access Imaging System) permettant d'activer à distance et à partir d'un poste de travail banalisé, des calculs parallèles de traitements d'images médicales. Parmi les outils intégrables dans ARAMIS, nous présentons un algorithme original permettant de calculer en temps linéaire la relation d'adjacence dans une surface triangulée générée par l'algorithme des Marching-Cubes.

Cadène, Rémi. "Deep Multimodal Learning for Vision and Language Processing." Electronic Thesis or Diss., Sorbonne université, 2020. http://www.theses.fr/2020SORUS277.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Les technologies du numérique ont joué un rôle déterminant dans la transformation de notre société. Des méthodes statistiques récentes ont été déployées avec succès afin d’automatiser le traitement de la quantité croissante d’images, de vidéos et de textes que nous produisons quotidiennement. En particulier, les réseaux de neurones profonds ont été adopté par les communautés de la vision par ordinateur et du traitement du langage naturel pour leur capacité à interpréter le contenu des images et des textes une fois entraînés sur de grands ensembles de données. Les progrès réalisés dans les deux communautés ont permis de jeter les bases de nouveaux problèmes de recherche à l’intersection entre vision et langage. Dans la première partie de cette thèse, nous nous concentrons sur des moteurs de recherche multimodaux images-textes. Nous proposons une stratégie d’apprentissage pour aligner efficacement les deux modalités tout en structurant l’espace de recherche avec de l’information sémantique. Dans la deuxième partie, nous nous concentrons sur des systèmes capables de répondre à toute question sur une image. Nous proposons une architecture multimodale qui fusionne itérativement les modalités visuelles et textuelles en utilisant un modèle bilinéaire factorisé, tout en modélisant les relations par paires entre chaque région de l’image. Dans la dernière partie, nous abordons les problèmes de biais dans la modélisation. Nous proposons une stratégie d’apprentissage réduisant les biais linguistiques généralement présents dans les systèmes de réponse aux questions visuelles
Digital technologies have become instrumental in transforming our society. Recent statistical methods have been successfully deployed to automate the processing of the growing amount of images, videos, and texts we produce daily. In particular, deep neural networks have been adopted by the computer vision and natural language processing communities for their ability to perform accurate image recognition and text understanding once trained on big sets of data. Advances in both communities built the groundwork for new research problems at the intersection of vision and language. Integrating language into visual recognition could have an important impact on human life through the creation of real-world applications such as next-generation search engines or AI assistants.In the first part of this thesis, we focus on systems for cross-modal text-image retrieval. We propose a learning strategy to efficiently align both modalities while structuring the retrieval space with semantic information. In the second part, we focus on systems able to answer questions about an image. We propose a multimodal architecture that iteratively fuses the visual and textual modalities using a factorized bilinear model while modeling pairwise relationships between each region of the image. In the last part, we address the issues related to biases in the modeling. We propose a learning strategy to reduce the language biases which are commonly present in visual question answering systems

Chen, Jianan. "Deep Learning Based Multimodal Retrieval." Electronic Thesis or Diss., Rennes, INSA, 2023. http://www.theses.fr/2023ISAR0019.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Les tâches multimodales jouent un rôle crucial dans la progression vers l'atteinte de l'intelligence artificielle (IA) générale. L'objectif principal de la recherche multimodale est d'exploiter des algorithmes d'apprentissage automatique pour extraire des informations sémantiques pertinentes, en comblant le fossé entre différentes modalités telles que les images visuelles, le texte linguistique et d'autres sources de données. Il convient de noter que l'entropie de l'information associée à des données hétérogènes pour des sémantiques de haut niveau identiques varie considérablement, ce qui pose un défi important pour les modèles multimodaux. Les modèles de réseau multimodal basés sur l'apprentissage profond offrent une solution efficace pour relever les difficultés découlant des différences substantielles d'entropie de l’information. Ces modèles présentent une précision et une stabilité impressionnantes dans les tâches d'appariement d'informations multimodales à grande échelle, comme la recherche d'images et de textes. De plus, ils démontrent de solides capacités d'apprentissage par transfert, permettant à un modèle bien entraîné sur une tâche multimodale d'être affiné et appliqué à une nouvelle tâche multimodale. Dans nos recherches, nous développons une nouvelle base de données multimodale et multi-vues générative spécifiquement conçue pour la tâche de segmentation référentielle multimodale. De plus, nous établissons une référence de pointe (SOTA) pour les modèles de segmentation d'expressions référentielles dans le domaine multimodal. Les résultats de nos expériences comparatives sont présentés de manière visuelle, offrant des informations claires et complètes
Multimodal tasks play a crucial role in the progression towards achieving general artificial intelligence (AI). The primary goal of multimodal retrieval is to employ machine learning algorithms to extract relevant semantic information, bridging the gap between different modalities such as visual images, linguistic text, and other data sources. It is worth noting that the information entropy associated with heterogeneous data for the same high-level semantics varies significantly, posing a significant challenge for multimodal models. Deep learning-based multimodal network models provide an effective solution to tackle the difficulties arising from substantial differences in information entropy. These models exhibit impressive accuracy and stability in large-scale cross-modal information matching tasks, such as image-text retrieval. Furthermore, they demonstrate strong transfer learning capabilities, enabling a well-trained model from one multimodal task to be fine-tuned and applied to a new multimodal task, even in scenarios involving few-shot or zero-shot learning. In our research, we develop a novel generative multimodal multi-view database specifically designed for the multimodal referential segmentation task. Additionally, we establish a state-of-the-art (SOTA) benchmark and multi-view metric for referring expression segmentation models in the multimodal domain. The results of our comparative experiments are presented visually, providing clear and comprehensive insights

Delecraz, Sébastien. "Approches jointes texte/image pour la compréhension multimodale de documents." Thesis, Aix-Marseille, 2018. http://www.theses.fr/2018AIXM0634/document.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Les mécanismes de compréhension chez l'être humain sont par essence multimodaux. Comprendre le monde qui l'entoure revient chez l'être humain à fusionner l'information issue de l'ensemble de ses récepteurs sensoriels. La plupart des documents utilisés en traitement automatique de l'information sont multimodaux. Par exemple, du texte et des images dans des documents textuels ou des images et du son dans des documents vidéo. Cependant, les traitements qui leurs sont appliqués sont le plus souvent monomodaux. Le but de cette thèse est de proposer des traitements joints s'appliquant principalement au texte et à l'image pour le traitement de documents multimodaux à travers deux études : l'une portant sur la fusion multimodale pour la reconnaissance du rôle du locuteur dans des émissions télévisuelles, l'autre portant sur la complémentarité des modalités pour une tâche d'analyse linguistique sur des corpus d'images avec légendes. Pour la première étude nous nous intéressons à l'analyse de documents audiovisuels provenant de chaînes d'information télévisuelle. Nous proposons une approche utilisant des réseaux de neurones profonds pour la création d'une représentation jointe multimodale pour les représentations et la fusion des modalités. Dans la seconde partie de cette thèse nous nous intéressons aux approches permettant d'utiliser plusieurs sources d'informations multimodales pour une tâche monomodale de traitement automatique du langage, afin d'étudier leur complémentarité. Nous proposons un système complet de correction de rattachements prépositionnels utilisant de l'information visuelle, entraîné sur un corpus multimodal d'images avec légendes
The human faculties of understanding are essentially multimodal. To understand the world around them, human beings fuse the information coming from all of their sensory receptors. Most of the documents used in automatic information processing contain multimodal information, for example text and image in textual documents or image and sound in video documents, however the processings used are most often monomodal. The aim of this thesis is to propose joint processes applying mainly to text and image for the processing of multimodal documents through two studies: one on multimodal fusion for the speaker role recognition in television broadcasts, the other on the complementarity of modalities for a task of linguistic analysis on corpora of images with captions. In the first part of this study, we interested in audiovisual documents analysis from news television channels. We propose an approach that uses in particular deep neural networks for representation and fusion of modalities. In the second part of this thesis, we are interested in approaches allowing to use several sources of multimodal information for a monomodal task of natural language processing in order to study their complementarity. We propose a complete system of correction of prepositional attachments using visual information, trained on a multimodal corpus of images with captions

More sources

Books on the topic "Traitement multimodal":

Gérard, Lopez, and Sabouraud-Séguin Aurore, eds. Psychothérapie des victimes: Le traitement multimodal du psychotraumatisme. Paris: Dunod, 1998.

Find full text

APA, Harvard, Vancouver, ISO, and other styles

Thiran, Jean-Philippe, and Hervé Bourlard. Multimodal signal processing: Theory and applications for human-computer interaction. Amsterdam: Academic, 2010.

Find full text

APA, Harvard, Vancouver, ISO, and other styles

Popescu-Belis, Andrei, and Hervé Bourlard. Interactive Multimodal Information Management. Taylor & Francis Group, 2014.

Find full text

APA, Harvard, Vancouver, ISO, and other styles

Bourlard, Hervé. Interactive Multimodal Information Management. Presses Polytechniques et Universitaires Romandes, 2021.

Find full text

APA, Harvard, Vancouver, ISO, and other styles

Delgado, Ramon Lopez, and Masahiro Araki. Spoken, Multilingual and Multimodal Dialogue Systems. Wiley & Sons, Incorporated, John, 2007.

Find full text

APA, Harvard, Vancouver, ISO, and other styles

Delgado, Ramon Lopez Cozar, and Masahiro Araki. Spoken, Multilingual and Multimodal Dialogue Systems: Development and Assessment. Wiley, 2005.

Find full text

APA, Harvard, Vancouver, ISO, and other styles

Book chapters on the topic "Traitement multimodal":

Colón de Carvajal, Isabel. "Chapitre 8. Traitement multimodal des données versus analyse multimodale des interactions : perspective de l’ethnométhodologie et de l’analyse conversationnelle." In Multimodalité du langage dans les interactions et l’acquisition, 211–51. UGA Éditions, 2019. http://dx.doi.org/10.4000/books.ugaeditions.10992.

Full text

APA, Harvard, Vancouver, ISO, and other styles

DAUL, Christian, and Walter BLONDEL. "Imagerie endoscopique multimodale et multispectrale à champ de vue étendu." In Imageries optiques non conventionnelles pour la biologie, 207–45. ISTE Group, 2023. http://dx.doi.org/10.51926/iste.9132.ch7.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

L’endoscopie est un examen médical qui permet de visualiser l’intérieur des organes creux. Ce chapitre présente les fondements du traitement d’images endoscopiques ainsi que les solutions techniques et méthodologiques les plus récentes d’acquisition de données multispectrales et/ou multimodales et de mosaïquage d’images visant à répondre aux enjeux médico-techniques d’amélioration de l’efficacité de détection in vivo des lésions.

Coqueugniot, Hélène. "Paléo-imagerie par rayons X : une méthode d’exploration transdisciplinaire, de l’archéologie à la chirurgie Hélène." In Regards croisés: quand les sciences archéologiques rencontrent l'innovation, 139–56. Editions des archives contemporaines, 2017. http://dx.doi.org/10.17184/eac.3794.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

L’imagerie par rayons X, bi- et tridimensionnelle, est devenue une méthodologie incontournable dans de nombreux champs disciplinaires dont celui des sciences archéologiques. Contrairement aux autres méthodes d’imagerie permettant seulement des acquisitions de surface (photographie et photogrammétrie, scanner laser), le rayonnement X permet également des acquisitions de volume, ce qui s’avère être un avantage fondamental dans les indications nécessitant de visualiser du contenu sans toucher au contenant. Cette propriété physique du rayonnement X de traverser la matière et de révéler l’intérieur des objets sur des images projetées en 2 dimensions a été appliquée très tôt au domaine archéologique, dès l’invention même de la radiologie en 1895, en parallèle avec son développement fulgurant dans le domaine médical. Les applications « archéométriques » des rayons X ont fait émerger le terme de paléoradiologie, qui définit l’application du rayonnement X à l’étude de matériaux bio-archéologiques. Un siècle après, les méthodes d’acquisition par rayons X se sont considérablement développées (radiologie numérique, tomodensitométrie, microtomographie RX) et le traitement des images a ouvert l’accès, grâce à la révolution numérique, à une nouvelle dimension. L’introduction de cette troisième dimension pour l’imagerie radiologique a permis de nombreuses avancées en recherches fondamentale et appliquée dans le domaine archéologique, tout en renouvelant considérablement les possibilités de conservation et de valorisation du patrimoine. En constituant un réseau interdisciplinaire, nous avons développé, à partir de la tomodensitométrie, une chaîne complète d’imagerie tridimensionnelle, initiée pour l’anthropologie biologique et qui trouve ses applications dans le domaine de l’archéologie et plus récemment dans celui de la chirurgie reconstructrice. En parallèle avec l’utilisation des rayons X, d’autres méthodes d’acquisitions d’images apportent également leurs contributions à l’archéologie. Leur intégration dans une approche transdisciplinaire utilisant l’ensemble des modalités non-destructives d’acquisition d’images et de leur représentation (multimodale et multidimensionnelle) a été nommée paléo-imagerie. La paléo-imagerie s’exprime à la fois sur le terrain et en laboratoire, fonctionne de manière diachronique (sans focus chronologique, de la préhistoire aux périodes contemporaines) et holistique en contextualisant l’objet dans son environnement archéologique. Dans cette optique, la paléo-imagerie a toute sa place au sein des méthodes de l’archéométrie

Academic literature on the topic 'Traitement multimodal'

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Contents

Journal articles on the topic "Traitement multimodal":

Dissertations / Theses on the topic "Traitement multimodal":

Books on the topic "Traitement multimodal":

Book chapters on the topic "Traitement multimodal":