To see the other types of publications on this topic, follow the link: Questions visuelles.

Dissertations / Theses on the topic 'Questions visuelles'

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the top 16 dissertations / theses for your research on the topic 'Questions visuelles.'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Browse dissertations / theses on a wide variety of disciplines and organise your bibliography correctly.

1

Lerner, Paul. "Répondre aux questions visuelles à propos d'entités nommées." Electronic Thesis or Diss., université Paris-Saclay, 2023. http://www.theses.fr/2023UPASG074.

Full text
Abstract:
Cette thèse se positionne à l'intersection de plusieurs domaines de recherche, le traitement automatique des langues, la Recherche d'Information (RI) et la vision par ordinateur, qui se sont unifiés autour des méthodes d'apprentissage de représentation et de pré-entraînement. Dans ce contexte, nous avons défini et étudié une nouvelle tâche multimodale : répondre aux questions visuelles à propos d'entités nommées (KVQAE). Dans ce cadre, nous nous sommes particulièrement intéressés aux interactions cross-modales et aux différentes façons de représenter les entités nommées. Nous avons également été attentifs aux données utilisées pour entraîner mais surtout évaluer les systèmes de question-réponse à travers différentes métriques. Plus précisément, nous avons proposé à cet effet un jeu de données, le premier de KVQAE comprenant divers types d'entités. Nous avons également défini un cadre expérimental pour traiter la KVQAE en deux étapes grâce à une base de connaissances non-structurée et avons identifié la RI comme principal verrou de la KVQAE, en particulier pour les questions à propos d'entités non-personnes. Afin d'améliorer l'étape de RI, nous avons étudié différentes méthodes de fusion multimodale, lesquelles sont pré-entraînées à travers une tâche originale : l'Inverse Cloze Task multimodale. Nous avons trouvé que ces modèles exploitaient une interaction cross-modale que nous n'avions pas considéré à l'origine, et qui permettrait de traiter l'hétérogénéité des représentations visuelles des entités nommées. Ces résultats ont été renforcés par une étude du modèle CLIP qui permet de modéliser cette interaction cross-modale directement. Ces expériences ont été menées tout en restant attentif aux biais présents dans le jeu de données ou les métriques d'évaluation, notamment les biais textuels qui affectent toute tâche multimodale
This thesis is positioned at the intersection of several research fields, Natural Language Processing, Information Retrieval (IR) and Computer Vision, which have unified around representation learning and pre-training methods. In this context, we have defined and studied a new multimodal task: Knowledge-based Visual Question Answering about Named Entities (KVQAE).In this context, we were particularly interested in cross-modal interactions and different ways of representing named entities. We also focused on data used to train and, more importantly, evaluate Question Answering systems through different metrics.More specifically, we proposed a dataset for this purpose, the first in KVQAE comprising various types of entities. We also defined an experimental framework for dealing with KVQAE in two stages through an unstructured knowledge base and identified IR as the main bottleneck of KVQAE, especially for questions about non-person entities. To improve the IR stage, we studied different multimodal fusion methods, which are pre-trained through an original task: the Multimodal Inverse Cloze Task. We found that these models leveraged a cross-modal interaction that we had not originally considered, and which may address the heterogeneity of visual representations of named entities. These results were strengthened by a study of the CLIP model, which allows this cross-modal interaction to be modeled directly. These experiments were carried out while staying aware of biases present in the dataset or evaluation metrics, especially of textual biases, which affect any multimodal task
APA, Harvard, Vancouver, ISO, and other styles
2

Bordes, Patrick. "Deep Multimodal Learning for Joint Textual and Visual Reasoning." Electronic Thesis or Diss., Sorbonne université, 2020. http://www.theses.fr/2020SORUS370.

Full text
Abstract:
Au cours de la dernière décennie, l'évolution des techniques d'apprentissage en profondeur, combinée à une augmentation importante des données multimodales a suscité un intérêt croissant dans la communauté de recherche pour la compréhension conjointe du langage et de la vision. Le défi au cœur de l'apprentissage automatique multimodal est la différence sémantique entre le langage et la vision: alors que la vision représente fidèlement la réalité et transmet une sémantique de bas niveau, le langage porte un raisonnement de haut niveau. D'une part, le langage peut améliorer les performances des modèles de vision. L'hypothèse sous-jacente est que les représentations textuelles contiennent des informations visuelles. Nous appliquons ce principe au Zero-Shot Learning. Dans la première contribution en ZSL, nous étendons une hypothèse commune, qui stipule que les représentations textuelles codent des informations sur l'apparence visuelle des objets, en montrant qu'elles codent également des informations sur leur environnement visuel et leur fréquence réelle. Dans une seconde contribution, nous considérons le cadre transductif en ZSL. Nous proposons une solution aux limites des approches transductives actuelles, qui supposent que l'espace visuel est bien groupé, ce qui n'est pas vrai lorsque le nombre de classes inconnues est élevé. D'un autre côté, la vision peut élargir les capacités des modèles linguistiques. Nous le démontrons en abordant la génération de questions visuelles (VQG), qui étend la tâche standard de génération de questions en utilisant une image comme entrée complémentaire, en utilisant des représentations visuelles dérivées de la vision par ordinateur
In the last decade, the evolution of Deep Learning techniques to learn meaningful data representations for text and images, combined with an important increase of multimodal data, mainly from social network and e-commerce websites, has triggered a growing interest in the research community about the joint understanding of language and vision. The challenge at the heart of Multimodal Machine Learning is the intrinsic difference in semantics between language and vision: while vision faithfully represents reality and conveys low-level semantics, language is a human construction carrying high-level reasoning. One the one hand, language can enhance the performance of vision models. The underlying hypothesis is that textual representations contain visual information. We apply this principle to two Zero-Shot Learning tasks. In the first contribution on ZSL, we extend a common assumption in ZSL, which states that textual representations encode information about the visual appearance of objects, by showing that they also encode information about their visual surroundings and their real-world frequence. In a second contribution, we consider the transductive setting in ZSL. We propose a solution to the limitations of current transductive approaches, that assume that the visual space is well-clustered, which does not hold true when the number of unknown classes is high. On the other hand, vision can expand the capacities of language models. We demonstrate it by tackling Visual Question Generation (VQG), which extends the standard Question Generation task by using an image as complementary input, by using visual representations derived from Computer Vision
APA, Harvard, Vancouver, ISO, and other styles
3

Castro, Teresa. "Le cinéma et la vocation cartographique des images : questions de culture visuelle." Paris 3, 2008. http://www.theses.fr/2008PA030099.

Full text
Abstract:
Comment se manifeste au cinéma la vocation cartographique des images ? Ancrée dans le domaine épistémologique de la culture visuelle, cette recherche se structure autour de deux éléments forts : l’existence d’une raison cartographique des images, manifestée dans et par des formes cartographiques, traduisant le passage de la carte lato sensu à la vocation cartographique des images. Il s’agit alors d’analyser les expressions cinématographiques de trois formes cartographiques : les panoramas, les atlas et les vues aériennes. Confrontant des objets très hétérogènes, issus de genres et de temporalités distinctes, l’analyse porte aussi bien sur des films de non-fiction de l’époque muette que sur des projets d’artistes contemporains, se fondant sur la mise en série d’images et le tissage de relations associatives. Si la vocation cartographique des images se manifeste au cinéma de façon très différente, elle semble relever de deux régimes de visibilité essentiels : un régime descriptif et un régime diagrammatique. Ces régimes renvoient à des façons distinctes d’envisager la représentation spatio-temporelle du monde, concernant globalement la fabrication et la création de points de vue, voire la création de nouvelles réalités. L’interrogation de la vocation cartographique des images permet, enfin, de révéler l’existence de deux rationalités cartographiques distinctes, l’une traversant le début du XXe siècle et l’autre le début du XXIe. Dépassant largement le domaine du cinéma, ces deux phénomènes sont liés à la prolifération de nouveaux dispositifs et technologies de l’image, ainsi qu’à des phénomènes de mondialisation
How does the mapping impulse of images become apparent in the cinema? Conceived as an investigation in visual culture, this research is grounded on the following premise: the existence of a cartographic reason of images, expressed in and by cartographic shapes, illustrating the turn from “map” to “mapping impulse”. The enquiry is built on the analysis of the cinematographic expressions of three cartographic shapes: panoramas, atlases and aerial views. Confronting a welter of fi lms and images from different periods and genres, ranging from silent non-fi ction fi lms to contemporary artists’ projects, our discussion proceeds by accumulating visual objects and creating associations between them. If the mapping impulse of images is embodied in the cinema in many different ways, it seems to be related to two visibility regimes: a descriptive regime and a diagrammatic regime. Suggesting different ways of conceiving the spatiotemporal representation of the real, these visibility regimes concern the fabrication of points of view and, at times, the creation of new realities. The consideration of the mapping impulse of images eventually allows for the identifi cation of two cartographic rationalities, the fi rst spanning the fi rst decades of the 20th century and the second the beginning of the 21st century. If the implications of these cartographic rationalities go well beyond the fi eld of the moving image, both seem to be related to the proliferation of different image technologies and to globalisation as an historical phenomenon
APA, Harvard, Vancouver, ISO, and other styles
4

Lindmark, Olivia, and Aino Soukko. "A graphic profile should answer questions, not create them - a case study about usability in a visual identity manual." Thesis, Linköpings universitet, Medie- och Informationsteknik, 2015. http://urn.kb.se/resolve?urn=urn:nbn:se:liu:diva-119946.

Full text
Abstract:
Denna studie undersöker visuella och textuella faktorer som skapar förutsättningar för användbarhet i grafiska profilmanualer samt hur dessa funna faktorer kan appliceras i en grafisk profilmanual. Detta för att yrkesverksamma inom kommunikationsbranschen ska kunna få ett bra verktyg för att hantera organisationers visuella varumärkesidentitet. Genom en användarvänlig grafisk profilmanual kan kommunikationen enklare hållas konsekvent. Studien grundar sig i en kvalitativ fallstudie där Norrköpings kommuns grafiska profilmanual har granskats. Studien har tagit hjälp av en fokusgrupp, en kvalitativ enkät samt en parintervju för att ta reda på hur yrkesverksamma inom kommunikationsbranschen upplevt användbarheten i Norrköpings kommuns grafiska profilmanual. Utifrån dessa upplevelser formades åtta textuella och visuella faktorer, som sedan har applicerats vid utformandet av en ny profilmanual åt kommunen. Resultatet visar att användbarheten påverkas av ett flertal textuella och visuella faktorer. Fyra huvudteman kunde identifieras: 1. Målgruppsanpassning 2. Brist på information 3. Struktur och informationssökning 4. Tydlighet i regler. Det visade sig att textens innehåll, mängden regler och hur dokumentet ska struktureras bör bestämmas efter målgruppens behov och kunskap. Tydlighet i reglerna samt att hjälpa användaren att hitta den eftersträvade informationen ansågs också vara viktig för användarvänligheten.
APA, Harvard, Vancouver, ISO, and other styles
5

Ozdil, Yilmaz. "La construction visuelle des identités kurdes : cinema turc, cinéma kurde." Thesis, Paris 3, 2013. http://www.theses.fr/2013PA030165.

Full text
Abstract:
Dans les quatre pays dominant le Kurdistan, (Turquie, Iran, Irak et Syrie), la question kurde se traduit avant tout sous forme de visibilité/ invisibilité, autour de la question de la reconnaissance des Kurdes en tant que Nation déniée. Notamment en Turquie, le premier des pays à avoir imposé aux Kurdes son modèle d'Etat-Nation, cette question renvoie aux politiques négationnistes étatiques menées contre la culture et l'identité kurdes, considérées dès 1924, comme des obstacles au processus de création d'une identité nationale turque. Dans ce rapport conflictuel entre le nationalisme turc et le nationalisme kurde, également fruit d'une mémorisation traumatique et d'une longue histoire de résistance kurde dans chaque partie du Kurdistan, l'imaginaire des Kurdes renvoie а une dimension historique devenue spontanément une référence essentielle du traitement cinématographique de la « kurdicité », sous forme d’interaction construite par les Kurdes eux-mêmes ou créée par leurs adversaires politiques.Notre thèse s'efforce de montrer cette influence durable du nationalisme sur le traitement cinématographique de la « kurdicité », principalement dans le cinéma turc traitant les Kurdes sans les designer en tant que Kurdes, puis dans le cinéma kurde au service de la « cause kurde » après les années 1990
In the four countries dominating Kurdistan (Turkey, Iran, Iraq and Syria) the Kurdish question translates first and foremost under the concept of visibility/invisibility, around the problem of the recognition of the Kurds as a denied nation. This is especially apparent in the case of Turkey, the first of the countries which imposed its own nation-state on the Kurds : this question is associated with the negationist state policies on Kurdish culture and identity,which, since 1924, have been considered as obstacles on the path to the creation of a nationalTurkish identity. In this conflictual relation between Kurdish and Turkish nationalisms – the fruit, among others, of a traumatic memory and a long history of Kurdish resistance inrespective sections of Kurdistan – the imagery of the Kurds refers to a historical dimensionwhich has spontaneously become an essential reference of cinematographic treatment of« Kurdishness » under the form of interactions constructed by themselves or by their own political opponents. The present thesis aims at describing that permanent influence of nationalism on the cinematographic treatment of « Kurdishness » in the Turkish cinema which principally treats the Kurds without designating them as Kurds, then in the Kurdish cinema in the service of « Kurdish cause » following the 1990s
APA, Harvard, Vancouver, ISO, and other styles
6

Lemaire, Laurence. "Approche comportementale et anatomo-fonctionnelle de la question de Molyneux." Université Louis Pasteur (Strasbourg) (1971-2008), 2002. http://www.theses.fr/2002STR1PS01.

Full text
Abstract:
Ce travail interroge les processus impliqués dans la perception intermodale, c'est-à-dire les mécanismes qui permettent qu'une même information spatiale puisse être obtenue par des modalités sensorielles distinctes (Streri 1993). Si l'intermodalité est aujourd'hui admise pour l'adulte, l'accord est en effet loin d'être établi quant aux processus sur lesquels elle repose. La question posée par William Molyneux, à l'aube du XVIIIe siècle, illustre ce problème, et est à l'origine d'un débat théorique dont l'ambition reste de déterminer si les équivalences intermodales sont innées, ou progressivement acquises au cours du développement. Sous l'impulsion du cognitivisme, les travaux récents, réalisés depuis les années 90, exposent de multiples facteurs susceptibles de contraindre les possibilités d'intégration intermodale précoce, aussi bien sur le versant perceptif que sur le versant représentationnel. .
This work interrogates the processes involved in the intermodal perception, that is to say, the mechanisms which allow that the same spatial information can be obtained by different sensory modalities (Streri 1993). If intermodality is yet admitted for adults, the agreement is not established concerning the processes on which it bases. The question done by William Molyneux, dawn of the XVIIIth century, illustrates this problem, and is in the origin of a theoretical debate of which the ambition remains to determine if intermodal equivalences are innate, or gradually acquired during the development. Under an impulse of the cognitive search, recent works, realized since the 90s, expose multiple factors susceptible to force the possibilities of intermodal integration, as well on the perceptive side as on the representational side. .
APA, Harvard, Vancouver, ISO, and other styles
7

Borlizzi, Vincenzo. "Trois questions sur le modelage des films - Les obstacles visuels, la pesanteur et la durée." Thesis, Paris 3, 2011. http://www.theses.fr/2011PA030039.

Full text
Abstract:
Cette recherche naît de l’interaction entre deux idées d’Eisenstein : en 1934 il affirma qu’un film est plus résistant que le granit, mais l’année d’après il soutint qu’il n’y aucune réalité physique dans les films, que de reflets et des ombres grises. La question de ce travail est donc : un réalisateur peut il toucher son film ? Un film n’est pas un objet. La contradiction entre les deux idées d’Eisenstein peut être dépassée si les films commencent à être étudiés au-delà de l’analogie “ombre-granit”, sans des mots qui chosifient les images. Si chaque image peut être étudiée en tant que partie intégrante d’un film, si chaque film peut être considéré comme un corps visuel suggérant des questions et devenant une matière de la pensée visuelle, alors les idées d’Eisenstein ne peuvent pas seulement exprimer la force physique d’un film, mais aussi un outil qu’un réalisateur peut développer pour modeler son œuvre : les ombres et les éclairages. La question peut être redéfinie : comment un réalisateur pourrait-il toucher son film ? Comment un film pourrait-il proposer des questions à propos de sa forme visuelle et de son interaction avec les forces physiques qui essaient de le modeler ?Cette étude n’impose pas de définition dogmatique sur le modelage, mais elle essaie d’approfondir trois chemins : la création par le biais des éclairages et des obstacles visuels dans les films de Bergman avec l’actrice Harriet Andersson ; le modelage et le problème de la pesanteur des corps dans certaines œuvres de Ford et Hitchcock ; les parcours du modelage pour exprimer la durée des corps humains (les yeux de Vera Miles) ou extrahumains (la désagrégation des coings à cause de la lumière)
This research is brought about by the interaction between two ideas Eisenstein wrote : in 1934 hestated that a film is stronger than granite, but the next year he maintained there is no physical reality in films, only reflections and grey shadows. So, the question of this work is : can a film director touch his film? A movie is not an object. Contradiction between the two Eisenstein ideas isapparent and can be overcome if films begin to be studied beyond “shadow-granite” analogy,without any words that compel an image to be a thing.On the contrary, if every image can be studied as an integrating part of a film, if each movie can be considered as a visual body which suggests some questions and which becomes a material of visualthought, then Eisenstein ideas can express not only the physical force of a film, but also oneinstrument a director can develop to touch and to model his film: shadows and lights.Consequently, the question can be redefined : how could a director touch his film? How could afilm propose some questions about its visual form and about its interaction with physical forces that try to model it ?This study does not impose a dogmatic definition about film modelling, it tries to examine threemodelling paths thoroughly : film creation by lights and visual obstacles in Bergman movies withthe actress Harriet Andersson ; film modelling and the problem of force of gravity on the bodies insome works by Ford and Hitchcock ; finally the ways to model movies by expressing duration ofhuman (the modelling of the eyes of Vera Miles) or extra-human bodies (Victor Erice film creationand disintegration of the fruits of a quince-tree because of the light)
APA, Harvard, Vancouver, ISO, and other styles
8

Jourdain, Christine. "Etude des difficultés de lecture chez l'adulte : la question de l'automatisation de la reconnaissance visuelle des mots." Dijon, 1995. http://www.theses.fr/1995DIJOL019.

Full text
Abstract:
L'objectif de ce travail est de mieux appréhender les processus qui, au niveau de la reconnaissance visuelle des mots, font obstacle à une lecture efficiente chez l'adulte. Pour mener à bien un tel projet, d'une part, nous nous sommes situé dans le cadre de la psychologie cognitive qui permet de faire le point sur les différents processus impliques dans la reconnaissance visuelle des mots (chapitre 1) et sur les troubles de la lecture (chapitre 2). D'autre part, nous avons proposé des épreuves (11) qui permettent, à partir de mesures chronométriques, d'évaluer le fonctionnement des processus préalablement définis (chapitre 3). Les résultats mettent en évidence des différences dans l'automatisation des processus qui mènent à la reconnaissance des mots mais aussi une gradation dans les difficultés (chapitres 4 et 5). Ainsi les difficultés peuvent être à la fois visuelles, phonologiques et lexicales (groupe 4), ou phonologiques avec des conséquences sur les traitements lexicaux (groupe 3), ou encore essentiellement phonologiques (groupe 2). Ces résultats doivent cependant être nuancés dans la mesure où tous les sujets issus d'un même groupe ne présentent pas obligatoirement le même profil de difficultés (chapitre 6)
The aim of this thesis is to study the visual word-recognition processes that prevent adult efficient reading. In order to do so, first we focused on the different visual word- recognition processes (chapter 1) and on reading disabilities (chapter 2). Second, we proposed experiments (11) which investigate efficiency of word-recognition processes from on-line paradigms (chapter 3). The results show differences in word-recognition processes automatization and gradation of disabilities (chapters 4 and 5). Thus the difficulties could be both visual, phonological and lexical (group 4), or phonological with consequence on lexical processing (group 3), or strictly phonological (group 2). However such interpretations should be taken with caution since subjects of a same group do not show the identical pattern of difficulties (chapter 6)
APA, Harvard, Vancouver, ISO, and other styles
9

Maunet, Isabelle. "La Poésie à la lettre et à la question : Du coup de dés aux poésies concrète et visuelle." Tours, 2000. http://www.theses.fr/2000TOUR2033.

Full text
Abstract:
Cette thèse a pour ambition de fournir des clefs pour la compréhension d'un des axes sur lesquels se développe la poésie expérimentale dans l'extrême contemporain (des années cinquante à aujourd'hui), ce qui implique un retour amont aux sources de la poésie dite "visuelle". Il s'agit d'abord de donner sens à cette appellation hautement problématique de "poésie visuelle", dont la rélaité formelle ne saurait se réduire à la dimension de la "visualité", en somme de la rendre à sa pluralité, à sa complexité, aux tensions et contradictions qui en font la richesse. Le chapitre initial est donc destiné à dessiner les conditions historiques de l'émergence, à la fin du XIXe siècle et au début du XXe siècle, d'une langue poétique visible. La grande partie parcourt le socle de l'aventure, à partir de la double expérience fondatrice et complémentaire de Mallarmé et de Rimbaud, d'une part, D'apollinaire. . . .
APA, Harvard, Vancouver, ISO, and other styles
10

Thorisdottir, Rosa Rut. "L'Arctique en images : l'analyse des films de Jean Malaurie et la question de la valeur des documents visuels." Paris 7, 2010. http://www.theses.fr/2010PA070102.

Full text
Abstract:
Cette thèse s'intéresse à la valeur des images dans le réveil culturel actuel des Inuit et à ce qu'elles apportent en termes de mémoire collective. Nous nous appuyons sur les films de Jean Malaurie sur les Inuit. En effet, nous soutenons le fait que l'image, le film, sont des documents scientifiques qui, aujourd'hui, passent inaperçus et ne recueillent pas l'attention qu'ils méritent. Notre analyse interpelle les travaux de Jean Malaurie et étudie ses témoignages sur la crise culturelle vécue par les Inuit dans les années 1970. Nous concluons que ces films doivent être au service des populations étudiées elles-mêmes, tant sur le plan privé que public. Le débat sur la propriété et les droits d'auteur confirme notre opinion car ces derniers empêchent finalement les populations étudiées de mieux se connaître et de se reconstruire. Les Inuit n'ont que des droits limités sur les documentaires et les films qui parlent d'eux. Ce sont les droits d'auteurs instaurés par les Occidentaux qui semblent empêcher les Inuit d'avoir accès à ces films. Par conséquent, nous proposons que ces films soient considérés comme des biens publics culturels inuit et qu'ils soient ainsi partagés avec les institutions et universités arctiques afin d'être mis à la disposition des peuples qui les ont inspirés. Ce geste généreux, un bon exemple pour les autres réalisateurs ethnologues, apporterait une toute autre dimension à l'héritage des œuvres visuelles de Jean Malaurie
In this thesis, we study the value of images in the discourse of the current cultural awakening amongst the Inuit population and what these images could bring in terms of the collective memory tools. We defend the opinion that the image, the film, as scientific documents, today pass without the attention they deserve. During our research, we examine specifically Jean Malaurie's films on the Inuit and his testimonies on the cultural crisis lived by the Arctic people in the 1970s. We conclude that these films should be accessible to the Inuit population themselves, as its importance, to these very same people, lays in both the private as the public level. We have realised that the Inuit have very limited rights to the documentaries and films concerning their lives and culture. What seems to be preventing the Inuit in using these films are western copyright laws. We explore thus the question of whose property these films really are and thus propose that these films should be considered as Inuit public cultural goods. As such they should be shared with institutions and universities in the Arctic and put in service of the people who inspired them. A generous gesture, giving a good example to other directors and ethnologists, and a new dimension to the legacy of Jean Malaurie's audio-visual works
APA, Harvard, Vancouver, ISO, and other styles
11

Papantoniou, Nowak Stéphane. "Le livre. Dedans / Dehors. Autour des éditions Al Dante : la question du medium : Livre, transmédialité et intermédialité. Contemporanéité et avant-garde. Questions de création littéraire et artistique. L'édition comparée." Thesis, Lyon, 2018. http://www.theses.fr/2018LYSEN002.

Full text
Abstract:
Cette thèse se propose d’étudier des pratiques poétiques dans et hors du livre à partir de parcours de poètes « passés » par les éditions Al Dante. Il s’agissait de questionner en particulier la notion de « performance », souvent réduite à une dimension scénique. Ou encore l’idée d’avant-garde, trop souvent limitée à une histoire politique close. L’idée d’avant-garde n’apparaît plus comme principe de structuration du groupe, mais comme spectralité agissante, conduisant à mêler des enjeux politiques — critique des institutions, critique de la langue dominante, contestations des places assignées par la culture — avec des enjeux esthétiques. Il est donc question de traduction poétique comme actualisation de la situation politique, et de transmédiation.L’approche stylistique a été progressivement supplantée par une approche médiologique pour problématiser des pratiques hétérogènes. La spécificité de la maison d’édition Al Dante nous permet de replacer le livre dans un écosystème poétique plus général, où le livre n’est plus la seule finalité, mais la médiation entre un processus de création et des manifestations publiques. Aussi peut-on lire ce moment contemporain non seulement comme l’émergence de thématiques dominantes, mais aussi comme une mise en crise de la centralité du livre et de son économie. La pratique des éditions Al Dante nous a donc amenés à défendre une « théorie du geste éditorial » qui ne se réduit pas à la mise en page d’un manuscrit, la production d’un livre et sa commercialisation, mais amène parfois à la création de livres qui ne possédaient pas d’espace éditorial. Repousser les frontières de l’édition, penser la spécificité du livre de « poésie-action » n’est pas sans paradoxes : déstructuration de la linéarité des discours, reconfiguration de l’espace de la page, adaptation spécifique des formats des livres et des polices de caractères. Ces pratiques ont pour enjeu la dimension performative du livre. En cela, on participe d’une manière renouvelée à une « performance typographique »
This doctoral thesis offers to study poetic practices in and out of the book from poets’ itineraries published by the Al Dante publishing house. The thesis is questioning the performance's notion, most often reduced to its scenic's dimension, but also the avant-garde's idea, too often limited to a political history which has ended. The avant-garde notion doesn't appear anymore as the element structuring the group but as an acting spectrality, leading to mix political issues - criticism of the institutions, criticism of the dominant language, challenges the places assigned by culture - with aesthetic issues. It is therefore a question of poetic translation as actualization of the political situation, and of transmediation. The stylistic approach has been gradually supplanted by a mediological approach to problematize heterogeneous practices. The Al Dante publishing house specificities allow us to see the book in a more general poetic ecosystem, where the book is no longer the only purpose, but the mediation between a process of creation and public events. So we can read this contemporary moment not only as the emergence of dominant themes, but also as a crisis of the book’s centrality and its economy. The Al Dante publishing house practices has led us to defend a theory of “editorial gesture” that cannot be reduced to the layout of manuscript or the production of a book and its marketing, but sometimes leads to the creation of books that didn’t find an editorial space. To push the boundaries of edition, to think the specificity poetry-action’s book is raising paradoxes: the disintegration of the linearity of the speeches, the reconfiguration of the page’s space, the specific adaptation of the books forms and fonts. These practices concern the book’s performative dimension. So it participates in a renewed way to a "typographic performance"
APA, Harvard, Vancouver, ISO, and other styles
12

Dancette, Corentin. "Shortcut Learning in Visual Question Answering." Electronic Thesis or Diss., Sorbonne université, 2023. http://www.theses.fr/2023SORUS073.

Full text
Abstract:
Cette thèse se concentre sur la tâche de VQA, c'est à dire les systèmes questions-réponses visuelles. Nous étudions l'apprentissage des biais dans cette tâche. Les modèles ont tendance à apprendre des corrélations superficielles les conduisant à des réponses correctes dans la plupart des cas, mais qui peuvent échouer lorsqu'ils rencontrent des données d'entrée inhabituelles. Nous proposons deux méthodes pour réduire l'apprentissage par raccourci sur le VQA. La première, RUBi, consiste à encourager le modèle à apprendre à partir des exemples les plus difficiles et les moins biaisés grâce à une loss spécifique. Nous proposons ensuite SCN, un modèle pour la tâche de comptage visuel, avec une architecture conçue pour être robuste aux changements de distribution. Nous étudions ensuite les raccourcis multimodaux dans le VQA. Nous montrons qu'ils ne sont pas seulement basés sur des corrélations entre la question et la réponse, mais qu'ils peuvent aussi impliquer des informations sur l'image. Nous concevons un benchmark d'évaluation pour mesurer la robustesse des modèles aux raccourcis multimodaux. L'apprentissage de ces raccourcis est particulièrement problématique lorsque les modèles sont testés dans un contexte de changement de distribution. C'est pourquoi il est important de pouvoir évaluer la fiabilité des modèles VQA. Nous proposons une méthode pour leur permettre de s'abstenir de répondre lorsque leur confiance est trop faible. Cette méthode consiste à entraîner un modèle externe, dit "sélecteur", pour prédire la confiance du modèle VQA. Nous montrons que notre méthode peut améliorer la fiabilité des modèles VQA existants
This thesis is focused on the task of VQA: it consists in answering textual questions about images. We investigate Shortcut Learning in this task: the literature reports the tendency of models to learn superficial correlations leading them to correct answers in most cases, but which can fail when encountering unusual input data. We first propose two methods to reduce shortcut learning on VQA. The first, which we call RUBi, consists of an additional loss to encourage the model to learn from the most difficult and less biased examples -- those which cannot be answered solely from the question. We then propose SCN, a model for the more specific task of visual counting, which incorporates architectural priors designed to make it more robust to distribution shifts. We then study the existence of multimodal shortcuts in the VQA dataset. We show that shortcuts are not only based on correlations between the question and the answer but can also involve image information. We design an evaluation benchmark to measure the robustness of models to multimodal shortcuts. We show that existing models are vulnerable to multimodal shortcut learning. The learning of those shortcuts is particularly harmful when models are evaluated in an out-of-distribution context. Therefore, it is important to evaluate the reliability of VQA models, i.e. We propose a method to improve their ability to abstain from answering when their confidence is too low. It consists of training an external ``selector'' model to predict the confidence of the VQA model. This selector is trained using a cross-validation-like scheme in order to avoid overfitting on the training set
APA, Harvard, Vancouver, ISO, and other styles
13

Strub, Florian. "Développement de modèles multimodaux interactifs pour l'apprentissage du langage dans des environnements visuels." Thesis, Lille 1, 2020. http://www.theses.fr/2020LIL1I030.

Full text
Abstract:
Alors que nous nous représentons le monde au travers de nos sens, de notre langage et de nos interactions, chacun de ces domaines a été historiquement étudié de manière indépendante en apprentissage automatique. Heureusement, ce cloisonnement tend à se défaire grâce aux dernières avancées en apprentissage profond, ce qui a conduit à l'uniformisation de l'extraction des données au travers des communautés. Cependant, les architectures neuronales multimodales n'en sont qu'à leurs premiers balbutiements et l’apprentissage par renforcement profond est encore souvent restreint à des environnements limités. Idéalement, nous aimerions pourtant développer des modèles multimodaux et interactifs afin qu’ils puissent correctement appréhender la complexité du monde réel. Dans cet objectif, cette thèse s’attache à la compréhension du langage combiné à la vision pour trois raisons : (i) ce sont deux modalités longuement étudiées aux travers des différentes communautés scientifiques (ii) nous pouvons bénéficier des dernières avancées en apprentissage profond pour les modèles de langues et de vision (iii) l’interaction entre l’apprentissage du langage et notre perception a été validé en science cognitives. Ainsi, nous avons conçu le jeu GuessWhat?! (KéZaKo) afin d’évaluer la compréhension de langue combiné à la vision de nos modèles : deux joueurs doivent ainsi localiser un objet caché dans une image en posant une série de questions. Nous introduisons ensuite le principe de modulation comme un nouveau module d’apprentissage profond multimodal. Nous montrons qu’une telle approche permet de fusionner efficacement des représentations visuelles et langagières en prenant en compte la structure hiérarchique propre aux réseaux de neurones. Enfin, nous explorons comment l'apprentissage par renforcement permet l’apprentissage de la langue et cimente l'apprentissage des représentations multimodales sous-jacentes. Nous montrons qu’un tel apprentissage interactif conduit à des stratégies langagières valides mais donne lieu à de nouvelles problématiques de recherche
While our representation of the world is shaped by our perceptions, our languages, and our interactions, they have traditionally been distinct fields of study in machine learning. Fortunately, this partitioning started opening up with the recent advents of deep learning methods, which standardized raw feature extraction across communities. However, multimodal neural architectures are still at their beginning, and deep reinforcement learning is often limited to constrained environments. Yet, we ideally aim to develop large-scale multimodal and interactive models towards correctly apprehending the complexity of the world. As a first milestone, this thesis focuses on visually grounded language learning for three reasons (i) they are both well-studied modalities across different scientific fields (ii) it builds upon deep learning breakthroughs in natural language processing and computer vision (ii) the interplay between language and vision has been acknowledged in cognitive science. More precisely, we first designed the GuessWhat?! game for assessing visually grounded language understanding of the models: two players collaborate to locate a hidden object in an image by asking a sequence of questions. We then introduce modulation as a novel deep multimodal mechanism, and we show that it successfully fuses visual and linguistic representations by taking advantage of the hierarchical structure of neural networks. Finally, we investigate how reinforcement learning can support visually grounded language learning and cement the underlying multimodal representation. We show that such interactive learning leads to consistent language strategies but gives raise to new research issues
APA, Harvard, Vancouver, ISO, and other styles
14

Laforge, Frédéric. "De la question éthique à l'esthétique." Thèse, 2003. http://constellation.uqac.ca/765/1/17710606.pdf.

Full text
Abstract:
Le présent mémoire traite de la relation entre la théorie et la pratique qui existe dans mon travail artistique et ces, sous différents angles. Mes intérêts théoriques sont généralement d'ordre sociologique. La question de la morale y est discutée. Il s'agit en fait du point névralgique de mon propos, c'est-à-dire que j'y expose l'idée que la morale est une donnée relative qui, par le biais des tabous, amène l'animal humain à enclencher des mécanismes de refoulement lorsqu'il confronte ses pulsions aux instances culturelles. Mon propos, par le biais d'objets artistiques, offre un lieu où le spectateur questionne son point de vue moral afin de remettre en perspective certains schèmes de valeurs occidentales. Les questions de l'inceste et de la pédophilie y sont très présentes et servent de métaphore à un propos plus large. Un questionnement sur le corps marginal, c'est-à-dire les corps anormaux et exclus des stéréotypes occidentaux est aussi présent et amène une réflexion sur la possibilité d'abstraire les valeurs qu'on leur accorde habituellement (beau/laid, bien/mal, etc.) afin de les percevoir d'un point de vue sensible. Sera ensuite traitée la relation qui existe entre le contenu et la forme. Mon travail sous-tend un discours sociologique mais étant du domaine de l'esthétique, il est surtout stimulé par la forme. La contenue passe donc avant tout par le biais d'objets, qui eux sont d'abord d'intérêt formel. Ma pratique est fortement influencée par la culture populaire, il se glisse donc plusieurs éléments qui renvoient directement à cette dernière. Parfois d'apparence usinée, industrielle, ma production relève surtout de l'esthétique kitsch qui intervient par la présence d'icônes de la culture de masse ou par un aspect décoratif.
APA, Harvard, Vancouver, ISO, and other styles
15

Pahuja, Vardaan. "Visual question answering with modules and language modeling." Thèse, 2019. http://hdl.handle.net/1866/22534.

Full text
APA, Harvard, Vancouver, ISO, and other styles
16

Bahdanau, Dzmitry. "On sample efficiency and systematic generalization of grounded language understanding with deep learning." Thesis, 2020. http://hdl.handle.net/1866/23943.

Full text
Abstract:
En utilisant la méthodologie de l'apprentissage profond qui préconise de s'appuyer davantage sur des données et des modèles neuronaux flexibles plutôt que sur les connaissances de l'expert dans le domaine, la communauté de recherche a récemment réalisé des progrès remarquables dans la compréhension et la génération du langue naturel. Néanmoins, il reste difficile de savoir si une simple extension des méthodes d'apprentissage profond existantes sera suffisante pour atteindre l'objectif d'utiliser le langage naturel pour l'interaction homme-machine. Nous nous concentrons sur deux aspects connexes dans lesquels les méthodes actuelles semblent nécessiter des améliorations majeures. Le premier de ces aspects est l'inefficacité statistique des systèmes d'apprentissage profond: ils sont connus pour nécessiter de grandes quantités de données pour bien fonctionner. Le deuxième aspect est leur capacité limitée à généraliser systématiquement, à savoir à comprendre le langage dans des situations où la distribution des données change mais les principes de syntaxe et de sémantique restent les mêmes. Dans cette thèse, nous présentons quatre études de cas dans lesquelles nous cherchons à apporter plus de clarté concernant l'efficacité statistique susmentionnée et les aspects de généralisation systématique des approches d'apprentissage profond de la compréhension des langues, ainsi qu'à faciliter la poursuite des travaux sur ces sujets. Afin de séparer le problème de la représentation des connaissances du monde réel du problème de l'apprentissage d'une langue, nous menons toutes ces études en utilisant des langages synthétiques ancrés dans des environnements visuels simples. Dans le premier article, nous étudions comment former les agents à suivre des instructions compositionnelles dans des environnements avec une forme de supervision restreinte. À savoir pour chaque instruction et configuration initiale de l'environnement, nous ne fournissons qu'un état cible au lieu d'une trajectoire complète avec des actions à toutes les étapes. Nous adaptons les méthodes d'apprentissage adversariel par imitation à ce paramètre et démontrons qu'une telle forme restreinte de données est suffisante pour apprendre les significations compositionelles des instructions. Notre deuxième article se concentre également sur des agents qui apprennent à exécuter des instructions. Nous développons la plateforme BabyAI pour faciliter des études plus approfondies et plus rigoureuses de ce cadre d'apprentissage. La plateforme fournit une langue BabyAI compositionnelle avec $10 ^ {19}$ instructions, dont la sémantique est précisément définie dans un environnement partiellement observable. Nous rapportons des résultats de référence sur la quantité de supervision nécessaire pour enseigner à l'agent certains sous-ensembles de la langue BabyAI avec différentes méthodes de formation, telles que l'apprentissage par renforcement et l'apprentissage par imitation. Dans le troisième article, nous étudions la généralisation systématique des modèles de réponse visuelle aux questions (VQA). Dans le scénario VQA, le système doit répondre aux questions compositionelles sur les images. Nous construisons un ensemble de données de questions spatiales sur les paires d'objets et évaluons la performance des différents modèles sur les questions concernant les paires d'objets qui ne se sont jamais produites dans la même question dans la distribution d'entraînement. Nous montrons que les modèles dans lesquels les significations des mots sont représentés par des modules séparés qui effectuent des calculs indépendants généralisent beaucoup mieux que les modèles dont la conception n'est pas explicitement modulaire. Cependant, les modèles modulaires ne généralisent bien que lorsque les modules sont connectés dans une disposition appropriée, et nos expériences mettent en évidence les défis de l'apprentissage de la disposition par un apprentissage de bout en bout sur la distribution d'entraînement. Dans notre quatrième et dernier article, nous étudions également la généralisation des modèles VQA à des questions en dehors de la distribution d'entraînement, mais cette fois en utilisant le jeu de données CLEVR, utilisé pour les questions complexes sur des scènes rendues en 3D. Nous générons de nouvelles questions de type CLEVR en utilisant des références basées sur la similitude (par exemple `` la balle qui a la même couleur que ... '') dans des contextes qui se produisent dans les questions CLEVR mais uniquement avec des références basées sur la localisation (par exemple `` le balle qui est à gauche de ... ''). Nous analysons la généralisation avec zéro ou quelques exemples de CLOSURE après un entraînement sur CLEVR pour un certain nombre de modèles existants ainsi qu'un nouveau modèle.
By using the methodology of deep learning that advocates relying more on data and flexible neural models rather than on the expert's knowledge of the domain, the research community has recently achieved remarkable progress in natural language understanding and generation. Nevertheless, it remains unclear whether simply scaling up existing deep learning methods will be sufficient to achieve the goal of using natural language for human-computer interaction. We focus on two related aspects in which current methods appear to require major improvements. The first such aspect is the data inefficiency of deep learning systems: they are known to require extreme amounts of data to perform well. The second aspect is their limited ability to generalize systematically, namely to understand language in situations when the data distribution changes yet the principles of syntax and semantics remain the same. In this thesis, we present four case studies in which we seek to provide more clarity regarding the aforementioned data efficiency and systematic generalization aspects of deep learning approaches to language understanding, as well as to facilitate further work on these topics. In order to separate the problem of representing open-ended real-world knowledge from the problem of core language learning, we conduct all these studies using synthetic languages that are grounded in simple visual environments. In the first article, we study how to train agents to follow compositional instructions in environments with a restricted form of supervision. Namely for every instruction and initial environment configuration we only provide a goal-state instead of a complete trajectory with actions at all steps. We adapt adversarial imitation learning methods to this setting and demonstrate that such a restricted form of data is sufficient to learn compositional meanings of the instructions. Our second article also focuses on instruction following. We develop the BabyAI platform to facilitate further, more extensive and rigorous studies of this setup. The platform features a compositional Baby language with $10^{19}$ instructions, whose semantics is precisely defined in a partially-observable gridworld environment. We report baseline results on how much supervision is required to teach the agent certain subsets of Baby language with different training methods, such as reinforcement learning and imitation learning. In the third article we study systematic generalization of visual question answering (VQA) models. In the VQA setting the system must answer compositional questions about images. We construct a dataset of spatial questions about object pairs and evaluate how well different models perform on questions about pairs of objects that never occured in the same question in the training distribution. We show that models in which word meanings are represented by separate modules that perform independent computation generalize much better than models whose design is not explicitly modular. The modular models, however, generalize well only when the modules are connected in an appropriate layout, and our experiments highlight the challenges of learning the layout by end-to-end learning on the training distribution. In our fourth and final article we also study generalization of VQA models to questions outside of the training distribution, but this time using the popular CLEVR dataset of complex questions about 3D-rendered scenes as the platform. We generate novel CLEVR-like questions by using similarity-based references (e.g. ``the ball that has the same color as ...'') in contexts that occur in CLEVR questions but only with location-based references (e.g. ``the ball that is to the left of ...''). We analyze zero- and few- shot generalization to CLOSURE after training on CLEVR for a number of existing models as well as a novel one.
APA, Harvard, Vancouver, ISO, and other styles
We offer discounts on all premium plans for authors whose works are included in thematic literature selections. Contact us to get a unique promo code!

To the bibliography