Se connecter

Bibliographies thématiques / Transformateur de vision

Sommaire

Articles de revues
Thèses

Littérature scientifique sur le sujet « Transformateur de vision »

Auteur : Grafiati

Publié le 9 novembre 2024

Créez une référence correcte selon les styles APA, MLA, Chicago, Harvard et plusieurs autres

Choisissez une source :

Consultez les listes thématiques d’articles de revues, de livres, de thèses, de rapports de conférences et d’autres sources académiques sur le sujet « Transformateur de vision ».

À côté de chaque source dans la liste de références il y a un bouton « Ajouter à la bibliographie ». Cliquez sur ce bouton, et nous générerons automatiquement la référence bibliographique pour la source choisie selon votre style de citation préféré : APA, MLA, Harvard, Vancouver, Chicago, etc.

Vous pouvez aussi télécharger le texte intégral de la publication scolaire au format pdf et consulter son résumé en ligne lorsque ces informations sont inclues dans les métadonnées.

Articles de revues sur le sujet "Transformateur de vision"

1

PACAL, Ishak. « A Vision Transformer-based Approach for Automatic COVID-19 Diagnosis on Chest X-ray Images ». Journal of the Institute of Science and Technology 13, n^o 2 (1 juin 2023) : 778–91. http://dx.doi.org/10.21597/jist.1225156.

Texte intégral

Résumé :

Son yıllarda ortaya çıkan yeni tip Koronavirüs hastalığı (COVID-19), dünya çapında sağlığı tehdit eden ciddi bir hastalık olmuştur. COVID-19 çok hızlı bir şekilde bulaşabilen ve ciddi ölüm artışları ile birçok endişeye zemin hazırlamıştır. Salgının evrensel boyuta taşınmasıyla bu hastalığın erken teşhisine yönelik birçok çalışma yapılmıştır. Erken teşhis ile hem ölümcül vakaların önüne geçilmiş olunmakta hem de salgının planlanması daha kolay olabilmektedir. X-ışını görüntülerinin zaman ve uygulanabilirlik açısından diğer görüntüleme tekniklerine nazaran çok daha avantajlı olması ve ayrıca ekonomik olması erken teşhis bazlı uygulama ve yöntemlerin bu görüntülerin üzerine yoğunlaşmasına neden olmuştur. Derin öğrenme yaklaşımları birçok hastalık teşhisinde olduğu gibi COVID-19 teşhisinde de çok büyük bir etki oluşturmuştur. Bu çalışmada, derin öğrenmenin CNN tabanlı yaklaşımları gibi daha önceki tekniklerinden ziyade en güncel ve çok daha popüler bir mimarisi olan transformatör yöntemine dayalı bir teşhis sistemi önerdik. Bu sistem, görü transformatör modelleri temelli bir yaklaşım ve yeni bir veri seti olan COVID-QU-Ex üzerinde COVID-19 hastalığının daha efektif bir teşhisini içermektedir. Deneysel çalışmalarda, görü transformatör modellerinin CNN modellerinden daha başarılı olduğu gözlemlenmiştir. Ayrıca, ViT-L16 modeli %96’nın üzerinde test doğruluğu ve F1-skoru sunarak, literatürde benzer çalışmalara kıyasla çok daha yüksek bir başarım göstermiştir.

Styles APA, Harvard, Vancouver, ISO, etc.

2

BODIN, L., G. BOLET, M. GARCIA, H. GARREAU, C. LARZUL et I. DAVID. « Robustesse et canalisation : vision de généticiens ». INRAE Productions Animales 23, n^o 1 (8 février 2010) : 11–22. http://dx.doi.org/10.20870/productions-animales.2010.23.1.3281.

Texte intégral

Résumé :

L’objectif de cet article est de définir et illustrer la notion de robustesse telle qu’elle est vue par les généticiens. Pour ces derniers, il existe deux concepts de robustesse. Le premier considère que la robustesse correspond à la capacité de survie de l’animal et au maintien d’un potentiel global de production dans des environnements stressants et fait notamment référence au rôle de l’axe corticotrope. Le second concept définit la robustesse comme le maintien d’un potentiel de production spécifique : dans ce cadre, un animal est dit robuste pour un caractère donné si ce caractère est stable dans des environnements variés, ce qui rejoint la notion d’interaction génotype-milieu et s’explique par différentes hypothèses génétiques (modèle de surdominance, modèle pléiotropique, modèle épistatique). La canalisation d’un caractère correspond alors à l’action de sélectionner pour diminuer la sensibilité aux variations environnementales. Cette canalisation est intéressante pour répondre, par exemple, aux attentes des producteurs (optimum de production), des transformateurs (homogénéité des productions) ou aux nouvelles contraintes environnementales (agriculture durable). La mise en pratique de cette dernière passe par différentes modélisations des interactions génotype-milieu ; la plus novatrice utilise les modèles dits structuraux qui considèrent une variabilité génétique de la variance du caractère considéré et pour lesquels des développements méthodologiques sont encore nécessaires. Différentes expériences de sélection canalisante ont été mises en place sur des animaux de rente avec plus ou moins de succès. A l’heure actuelle, seule la sélection canalisante sur l’homogénéité des poids des lapereaux à la naissance est pratiquée en routine.

Styles APA, Harvard, Vancouver, ISO, etc.

3

Bingle, P. W., et J. J. Van der Walt. « Prediking : eskatologiese transformator en alarmsinjaal ». In die Skriflig/In Luce Verbi 25, n^o 3 (25 juin 1991). http://dx.doi.org/10.4102/ids.v25i3.1383.

Texte intégral

Résumé :

Due to the interlocking of the old and the new aeon, preaching contains an eschatological tension and it projects an eschatological prefiguration in the existing old dispensation. Preaching the kingdom of God in its eschatological perspective is consequently not simply a matter of supplying interesting data about the last locus of dogmatics and what will happen at the end of times. Proclaiming Jesus Christ as the Eschatos constitutes preaching as an eschatological maturing process. The remembrance of the perfecta fulfilled by Christ invokes the futura which is yet to come. Eschatology offers to preaching an actuality and an existential moment in the timespan of every day. With regard to this, preaching the Word - Dabar - of God, which has an eschatological preference and which is critically associated with the proton as the yet incomplete world, opens a vision on the novum of the kingdom of God. Eschatology also projects an alignment with and a praeludium to the eternal judgement of God. Henceforth, preaching is an act of God’s clarion call to "prepare to meet your God" (Amos 4:12). Proclaiming the eschatological judgement, preaching transforms the viva vox of the Deus loquens to the language and environment of the target audience. The preacher is God's interpreter in the language zones of man.

Styles APA, Harvard, Vancouver, ISO, etc.

Thèses sur le sujet "Transformateur de vision"

1

González, Romero Lilián Ysabel. « Une dimension thérapeutique de l’art d’après une vision esthétique : une approche du pouvoir transformateur de l'art ». Paris 8, 2013. http://octaviana.fr/document/171317696#?c=0&m=0&s=0&cv=0.

Texte intégral

Résumé :

L'art entraîne une sorte de révélation qui nous permet de redécouvrir le monde mais surtout l'homme. Cette redécouverte et l'émerveillement éveillés par l'art font appel à deux aspects centraux : la subjectivité et l'expressivité. Ce fait serait à l'origine d'un certain pouvoir transformateur de l'art en tant qu'espace de révélation et d'expressivité favorisant, en plus, la rencontre avec soi, autrui et le monde. Nous considérons que cette capacité transformatrice de l'art constitue précisément un fondement de son pouvoir thérapeutique. L'objectif principal de cette recherche constitue ainsi la réalisation d’une approche de ce pouvoir thérapeutique de l’art. L'intérêt de cette étude réside dans le fait que nous partons d'une vision esthétique. La vision esthétique de la thérapeutique dans l'art s'éloigne de la vision psychologique et psychanalytique, c’est-à-dire de la vision clinique sous deux aspects : le premier est la considération de l'art en tant que phénomène per se et non comme un moyen de thérapie psychologique ou psychanalytique ; le deuxième aspect réside dans l’accent mis par l'expressivité. La vision esthétique de la thérapeutique de l'art trouve sa justification, son sens et sa raison d'être au sein d'une société et d'une humanité assujetties principalement aux modèles de vie imposés par un complexe système dominant. Un système caractérisé par une grave crise écologique résultat en grand partie de l'action destructrice de ce que Félix Guattari appelle CMI (Capitalisme Mondial Intégral)
Art leads to a kind of revelation which allows us to rediscover the world but above all to rediscover the individual. This rediscovery and the wonder Art brings about call on two central aspects: Subjectivity and Expressiveness. This could be the cause of a certain Art’s transforming power as a space of revelation and expressiveness that contributes, moreover, to meet oneself, the other and the world. We consider that this transforming ability of Art constitutes, precisely, a foundation of its therapeutical power. The main purpose of this investigation is to create an approach to this therapeutical power of Art. The interest of this study lies on the fact that we start from an aesthetical point of view. The aesthetical approach of therapeutics in Art dismisses a psychological and psychoanalytical angle - that is a clinical view - from two aspects: the first one is the consideration of Art as a phenomenon per se instead of a means of psychological and psychoanalytical therapy; the second one resides in the emphasis of expressiveness. The aesthetical approach of Art therapeutics finds its justification, sense and raison d’être within a society and humanity that have become subjects of a lifestyle which has been imposed by a complexe dominant system. This system is characterised by a serious ecological crisis mainly resulting from the destructive action of what Felix Guattari calls « Global Capitalism » (CMI : Capitalisme Mondial Intégral)

Styles APA, Harvard, Vancouver, ISO, etc.

2

Zhang, Yujing. « Deep learning-assisted video list decoding in error-prone video transmission systems ». Electronic Thesis or Diss., Valenciennes, Université Polytechnique Hauts-de-France, 2024. http://www.theses.fr/2024UPHF0028.

Texte intégral

Résumé :

Au cours des dernières années, les applications vidéo ont connu un développement rapide. Par ailleurs, l’expérience en matière de qualité vidéo s’est considérablement améliorée grâce à l’avènement de la vidéo HD et à l’émergence des contenus 4K. En conséquence, les flux vidéo ont tendance à représenter une plus grande quantité de données. Pour réduire la taille de ces flux vidéo, de nouvelles solutions de compression vidéo telles que HEVC ont été développées.Cependant, les erreurs de transmission susceptibles de survenir sur les réseaux peuvent provoquer des artefacts visuels indésirables qui dégradent considérablement l'expérience utilisateur. Diverses approches ont été proposées dans la littérature pour trouver des solutions efficaces et peu complexes afin de réparer les paquets vidéo contenant des erreurs binaires, en évitant ainsi une retransmission coûteuse et incompatible avec les contraintes de faible latence de nombreuses applications émergentes (vidéo immersive, télé-opération). La correction d'erreurs basée sur le contrôle de redondance cyclique (CRC) est une approche prometteuse qui utilise des informations facilement disponibles sans surcoût de débit. Cependant, elle ne peut corriger en pratique qu'un nombre limité d'erreurs. Selon le polynôme générateur utilisé, la taille des paquets et le nombre maximum d'erreurs considéré, cette méthode peut conduire non pas à un paquet corrigé unique, mais plutôt à une liste de paquets possiblement corrigés. Dans ce cas, le décodage de liste devient pertinent en combinaison avec la correction d'erreurs basée CRC ainsi qu'avec les méthodes exploitant l'information sur la fiabilité des bits reçus. Celui-ci présente toutefois des inconvénients en termes de sélection de vidéos candidates. Suite à la génération des candidats classés lors du processus de décodage de liste dans l'état de l'art, la sélection finale considéra souvent le premier candidat valide dans la liste finale comme vidéo reconstruite. Cependant, cette sélection simple est arbitraire et non optimale, la séquence vidéo candidate en tête de liste n'étant pas nécessairement celle qui présente la meilleure qualité visuelle. Il est donc nécessaire de développer une nouvelle méthode permettant de sélectionner automatiquement la vidéo ayant la plus haute qualité dans la liste des candidats.Nous proposons de sélectionner le meilleur candidat en fonction de la qualité visuelle déterminée par un système d'apprentissage profond (DL). Considérant que la distorsion sera gérée sur chaque image, nous considérons l’évaluation de la qualité de l’image plutôt que l’évaluation de la qualité vidéo. Plus précisément, chaque candidat subit un traitement par une méthode d'évaluation de la qualité d'image (image quality assessment, IQA) sans référence basée sur l'apprentissage profond pour obtenir un score. Par la suite, le système sélectionne le candidat ayant le score IQA le plus élevé. Pour cela, notre système évalue la qualité des vidéos soumises à des erreurs de transmission sans éliminer les paquets perdus ni dissimuler les régions perdues. Les distorsions causées par les erreurs de transmission diffèrent de celles prises en compte par les mesures de qualité visuelle traditionnelles, qui traitent généralement des distorsions globales et uniformes de l'image. Ainsi, ces métriques ne parviennent pas à distinguer la version corrigée des différentes versions vidéo corrompues. Notre approche revisite et optimise la technique de décodage de liste classique en lui associant une architecture CNN d’abord, puis Transformer pour évaluer la qualité visuelle et identifier le meilleur candidat. Elle est sans précédent et offre d'excellentes performances. En particulier, nous montrons que lorsque les erreurs de transmission se produisent dans une trame intra, nos architectures basées sur CNN et Transformer atteignent une précision de décision de 100%. Pour les erreurs dans une image inter, la précision est de 93% et 95%, respectivement
In recent years, video applications have developed rapidly. At the same time, the video quality experience has improved considerably with the advent of HD video and the emergence of 4K content. As a result, video streams tend to represent a larger amount of data. To reduce the size of these video streams, new video compression solutions such as HEVC have been developed.However, transmission errors that may occur over networks can cause unwanted visual artifacts that significantly degrade the user experience. Various approaches have been proposed in the literature to find efficient and low-complexity solutions to repair video packets containing binary errors, thus avoiding costly retransmission that is incompatible with the low latency constraints of many emerging applications (immersive video, tele-operation). Error correction based on cyclic redundancy check (CRC) is a promising approach that uses readily available information without throughput overhead. However, in practice it can only correct a limited number of errors. Depending on the generating polynomial used, the size of the packets and the maximum number of errors considered, this method can lead not to a single corrected packet but rather to a list of possibly corrected packets. In this case, list decoding becomes relevant in combination with CRC-based error correction as well as methods exploiting information on the reliability of the received bits. However, this has disadvantages in terms of selection of candidate videos. Following the generation of ranked candidates during the state-of-the-art list decoding process, the final selection often considers the first valid candidate in the final list as the reconstructed video. However, this simple selection is arbitrary and not optimal, the candidate video sequence at the top of the list is not necessarily the one which presents the best visual quality. It is therefore necessary to develop a new method to automatically select the video with the highest quality from the list of candidates.We propose to select the best candidate based on the visual quality determined by a deep learning (DL) system. Considering that distortions will be assessed on each frame, we consider image quality assessment rather than video quality assessment. More specifically, each candidate undergoes processing by a reference-free image quality assessment (IQA) method based on deep learning to obtain a score. Subsequently, the system selects the candidate with the highest IQA score. To do this, our system evaluates the quality of videos subject to transmission errors without eliminating lost packets or concealing lost regions. Distortions caused by transmission errors differ from those accounted for by traditional visual quality measures, which typically deal with global, uniform image distortions. Thus, these metrics fail to distinguish the repaired version from different corrupted video versions when local, non-uniform errors occur. Our approach revisits and optimizes the classic list decoding technique by associating it with a CNN architecture first, then with a Transformer to evaluate the visual quality and identify the best candidate. It is unprecedented and offers excellent performance. In particular, we show that when transmission errors occur within an intra frame, our CNN and Transformer-based architectures achieve 100% decision accuracy. For errors in an inter frame, the accuracy is 93% and 95%, respectively

Styles APA, Harvard, Vancouver, ISO, etc.

3

Samuelsson, Robert. « Karlstad Vision 100 000 och dess implementering för Karlstads Elnät AB 2011-2015 ». Thesis, Karlstads universitet, Fakulteten för teknik- och naturvetenskap, 2011. http://urn.kb.se/resolve?urn=urn:nbn:se:kau:diva-8427.

Texte intégral

Résumé :

The town of Karlstad has a long term project called Vision 100 000 which aim is to increase the population towards 100 000 inhabitants. This will of course put a strain for the town’s energy distribution grid. This is a work about trying to predict the grids power usage would be for the next five years if the city building plan is finalized. Those predictions are mainly going to be done through calculations with a database program called Facilplus and by checking the measured history of power usage per hour on certain selected customers by the program CustCom. The peak for power usage happened the 22 December at 4 am. This date is important because it would give the main measure for how much it the grid is able to deliver. The future prognoses of the power usage are then going to be calculated. This is going to be done by making sure that the total areas of newly constructed buildings are going to be measured. A mean value for area and power usage is then going to be calculated for respective single houses and apartment houses. This would in turn give the important necessary value that would enable to give Karlstad Elnät AB a mean to calculate a new primarily prognosis for the next five years plan. These prognoses would then be used as plans how to newly constructed habitation areas would affect the energy grid in Karlstad.
Karlstads Kommun har en vision att få en befolkningsmängd på 100 000 invånare. För att få en bild av det framtida energibehovet bör man först skapa sig en bild över dagens elbehov. Detta sker på två sätt, först genom att summera energiuttaget från alla de elmätare som finns under nätstationerna som hämtas från insamlingssystemet CustCom. Här får man timrapporten för varje kunds energiförbrukning. Man är då särdeles intresserad av den dagen då nätet var som hårdast belastat. Detta skedde under julhelgen 22 december 2010 klockan 16.00. Den andra metoden är att få fram värden genom beräkningar via javaprogrammet Facilplus. Programmet används även för nätdokumentation (var stationerna och kablar befinner sig geografiskt) och projektering av utbyggnaderna. Belastningsberäkningarna i Facilplus använder sig av Velanders formel för att räkna fram effekten från kända årsförbrukningar av Karlstad Elnät AB:s kunder. När det gäller att prognosera effektanvändningen för nybebyggelserna, beräknas först ett standardvärde för respektive byggnad (specifik energiförbrukning). Detta värde beräknas med hjälp av byggnaders ytor utifrån begärda ritningar från några noga utvalda områden. Därefter kan energianvändningen per kvadratmeter beräknas utifrån uppmätt energiförbrukning för de kunderna i respektive byggnad. Omvandlingen sker sedan från energiförbrukning till effektförbrukning och man får därmed ett bra mått på hur en viss byggnadstyp har för energianvändning. Då antalet bostäder som ska byggas ut under perioden är kända från de byggnadsplaner som är tillgängliga för allmänheten kan man sedermera få fram en översiktlig storlek för varje nybyggnadsområdes framtida energianvändning. Det kommer även sålunda bli möjligt att avgöra om elnätet bör byggas ut eller om stationer ska omplaceras så att de hamnar inom andra mottagningsstationers matningsområden. Befintliga mottagningsstationer har kapacitet för ytterligare utbyggnad av Karlstad i olika riktningar.

Styles APA, Harvard, Vancouver, ISO, etc.

4

Morabit, Safaa El. « New Artificial Intelligence techniques for Computer vision based medical diagnosis ». Electronic Thesis or Diss., Valenciennes, Université Polytechnique Hauts-de-France, 2023. http://www.theses.fr/2023UPHF0013.

Texte intégral

Résumé :

La capacité à ressentir la douleur est cruciale pour la vie, car elle sert de système d’alerteprécoce en cas de dommages potentiels pour le corps. La majorité des évaluations dela douleur reposent sur les rapports des patients. En revanche, les patients incapablesd’exprimer leur douleur doivent plutôt se fier aux rapports de tierces personnes sur leursouffrance. En raison des biais potentiel de l’observateur, les rapports sur la douleurpeuvent contenir des inexactitudes. En outre, il serait impossible de surveiller les patients 24 heures sur 24. Afin de mieux gérer la douleur, notamment chez les patients avec des difficultés de communication, des techniques de détection automatique de la douleur pourraient être mises en œuvre pour aider les soignants et compléter leur service. Les expressions faciales sont utilisées par la plupart des systèmes d’évaluation de la douleur basés sur l’observation, car elles constituent un indicateur fiable de la douleur et peuvent être interprétées à distance.En considérant que la douleur génère généralement un comportement facial spontané, les expressions faciales pourraient être utilisées pour détecter la présence de la douleur. Dans cette thèse, nous analysons les expressions faciales de la douleur afin d’aborder l’estimation de la douleur. Tout d’abord, nous présentons une analyse approfondie du problème en comparant de nombreuses architectures CNN (réseau de neurones convolutifs) courantes, telles que MobileNet, GoogleNet, ResNeXt-50, ResNet18et DenseNet-161. Nous utilisons ces réseaux dans deux modes uniques : autonome et extraction de caractéristiques. En mode autonome, les modèles (c’est-à-dire les réseaux)sont utilisés pour estimer directement la douleur. En mode extracteur de caractéristiques, les "valeurs" de la couche intermédiaire sont extraites et introduites dans desclassificateurs tels que la régression à vecteur de support (SVR) et la régression à forêtsd’arbres décisionnels (RFR).Les CNN ont obtenu des résultats significatifs dans la classification d’images et ontconnu un grand succès. Plus récemment, l’efficacité des Transformers en vision par ordinateur a été démontrée par plusieurs études. Des architectures basées sur les Transformers ont été proposées dans la deuxième section de cette thèse. Ces deux architectures distinctes ont été présentées pour répondre à deux problèmes distincts liés àla douleur : la détection de la douleur (douleur vs absence de douleur) et la distinction entre la douleur authentique et la douleur simulée. L’architecture innovante pourl’identification binaire de la douleur faciale est basée sur des transformateurs d’imagesefficaces en termes de données (Deit). Deux bases de données, UNBC-McMaster shoulder pain et BioVid heat pain, ont été utilisées pour affiner et évaluer le modèle formé. Ladeuxième architecture proposée, repose sur des transformateurs de vision pour la détection de douleurs authentiques et simulées à partir des expressions faciales (ViT). Pour distinguer la douleur authentique de la douleur simulée, le modèle doit accorder uneattention particulière aux changements subtils des expressions faciales dans le temps.L’approche employée prend en compte l’aspect séquentiel et capture les variations des expressions faciales. Les expériences ont été menées sur la base de données BioVid HeatPain démontrent l’efficacité de notre stratégie
The ability to feel pain is crucial for life, since it serves as an early warning system forpotential harm to the body. The majority of pain evaluations rely on patient reports. Patients who are unable to express their own pain must instead rely on third-party reportsof their suffering. Due to potential observer bias, pain reports may contain inaccuracies. In addition, it would be impossible for people to keep watch around the clock. Inorder to better manage pain, especially in noncommunicative patients, automatic paindetection technologies might be implemented to aid human caregivers and complementtheir service. Facial expressions are used by all observer-based pain assessment systemsbecause they are a reliable indicator of pain and can be interpreted from a distance.Taking into consideration that pain generally generates spontaneous facial behavior,these facial expressions could be used to detect the presence of pain. In this thesis, weanalyze facial expressions of pain in order to address pain estimation. First, we presenta thorough analysis of the problem by comparing numerous common CNN (Convolutional Neural Network) architectures, such as MobileNet, GoogleNet, ResNeXt-50, ResNet18, and DenseNet-161. We employ these networks in two unique modes: standalone and feature extraction. In standalone mode, models (i.e., networks) are utilized to directly estimate pain. In feature extractor mode, "values" from the middle layer are extracted and fed into classifiers like Support Vector Regression (SVR) and Random Forest Regression (RFR).CNNs have achieved significant results in image classification and have achievedgreat success. The effectiveness of Transformers in computer vision has been demonstrated through recent studies. Transformer-based architectures were proposed in the second section of this thesis. Two distinct Transformer-based frameworks were presented to address two distinct pain issues: pain detection (pain vs no pain) and thedistinction between genuine and posed pain. The innovative architecture for binaryidentification of facial pain is based on data-efficient image transformers (Deit). Twodatasets, UNBC-McMaster shoulder pain and BioVid heat pain, were used to fine-tuneand assess the trained model. The suggested architecture is built on Vision Transformers for the detection of genuine and simulated pain from facial expressions (ViT). Todistinguish between Genuine and Posed Pain, the model must pay particular attentionto the subtle changes in facial expressions over time. The employed approach takes intoaccount the sequential aspect and captures the variations in facial expressions. Experiments on the publicly accessible BioVid Heat Pain Database demonstrate the efficacy of our strategy

Styles APA, Harvard, Vancouver, ISO, etc.

5

Ganin, Iaroslav. « Natural image processing and synthesis using deep learning ». Thèse, 2019. http://hdl.handle.net/1866/23437.

Texte intégral

Résumé :

Nous étudions dans cette thèse comment les réseaux de neurones profonds peuvent être utilisés dans différents domaines de la vision artificielle. La vision artificielle est un domaine interdisciplinaire qui traite de la compréhension d’images et de vidéos numériques. Les problèmes de ce domaine ont traditionnellement été adressés avec des méthodes ad-hoc nécessitant beaucoup de réglages manuels. En effet, ces systèmes de vision artificiels comprenaient jusqu’à récemment une série de modules optimisés indépendamment. Cette approche est très raisonnable dans la mesure où, avec peu de données, elle bénéficient autant que possible des connaissances du chercheur. Mais cette avantage peut se révéler être une limitation si certaines données d’entré n’ont pas été considérées dans la conception de l’algorithme. Avec des volumes et une diversité de données toujours plus grands, ainsi que des capacités de calcul plus rapides et économiques, les réseaux de neurones profonds optimisés d’un bout à l’autre sont devenus une alternative attrayante. Nous démontrons leur avantage avec une série d’articles de recherche, chacun d’entre eux trouvant une solution à base de réseaux de neurones profonds à un problème d’analyse ou de synthèse visuelle particulier. Dans le premier article, nous considérons un problème de vision classique: la détection de bords et de contours. Nous partons de l’approche classique et la rendons plus ‘neurale’ en combinant deux étapes, la détection et la description de motifs visuels, en un seul réseau convolutionnel. Cette méthode, qui peut ainsi s’adapter à de nouveaux ensembles de données, s’avère être au moins aussi précis que les méthodes conventionnelles quand il s’agit de domaines qui leur sont favorables, tout en étant beaucoup plus robuste dans des domaines plus générales. Dans le deuxième article, nous construisons une nouvelle architecture pour la manipulation d’images qui utilise l’idée que la majorité des pixels produits peuvent d’être copiés de l’image d’entrée. Cette technique bénéficie de plusieurs avantages majeurs par rapport à l’approche conventionnelle en apprentissage profond. En effet, elle conserve les détails de l’image d’origine, n’introduit pas d’aberrations grâce à la capacité limitée du réseau sous-jacent et simplifie l’apprentissage. Nous démontrons l’efficacité de cette architecture dans le cadre d’une tâche de correction du regard, où notre système produit d’excellents résultats. Dans le troisième article, nous nous éclipsons de la vision artificielle pour étudier le problème plus générale de l’adaptation à de nouveaux domaines. Nous développons un nouvel algorithme d’apprentissage, qui assure l’adaptation avec un objectif auxiliaire à la tâche principale. Nous cherchons ainsi à extraire des motifs qui permettent d’accomplir la tâche mais qui ne permettent pas à un réseau dédié de reconnaître le domaine. Ce réseau est optimisé de manière simultané avec les motifs en question, et a pour tâche de reconnaître le domaine de provenance des motifs. Cette technique est simple à implémenter, et conduit pourtant à l’état de l’art sur toutes les tâches de référence. Enfin, le quatrième article présente un nouveau type de modèle génératif d’images. À l’opposé des approches conventionnels à base de réseaux de neurones convolutionnels, notre système baptisé SPIRAL décrit les images en termes de programmes bas-niveau qui sont exécutés par un logiciel de graphisme ordinaire. Entre autres, ceci permet à l’algorithme de ne pas s’attarder sur les détails de l’image, et de se concentrer plutôt sur sa structure globale. L’espace latent de notre modèle est, par construction, interprétable et permet de manipuler des images de façon prévisible. Nous montrons la capacité et l’agilité de cette approche sur plusieurs bases de données de référence.
In the present thesis, we study how deep neural networks can be applied to various tasks in computer vision. Computer vision is an interdisciplinary field that deals with understanding of digital images and video. Traditionally, the problems arising in this domain were tackled using heavily hand-engineered adhoc methods. A typical computer vision system up until recently consisted of a sequence of independent modules which barely talked to each other. Such an approach is quite reasonable in the case of limited data as it takes major advantage of the researcher's domain expertise. This strength turns into a weakness if some of the input scenarios are overlooked in the algorithm design process. With the rapidly increasing volumes and varieties of data and the advent of cheaper and faster computational resources end-to-end deep neural networks have become an appealing alternative to the traditional computer vision pipelines. We demonstrate this in a series of research articles, each of which considers a particular task of either image analysis or synthesis and presenting a solution based on a ``deep'' backbone. In the first article, we deal with a classic low-level vision problem of edge detection. Inspired by a top-performing non-neural approach, we take a step towards building an end-to-end system by combining feature extraction and description in a single convolutional network. The resulting fully data-driven method matches or surpasses the detection quality of the existing conventional approaches in the settings for which they were designed while being significantly more usable in the out-of-domain situations. In our second article, we introduce a custom architecture for image manipulation based on the idea that most of the pixels in the output image can be directly copied from the input. This technique bears several significant advantages over the naive black-box neural approach. It retains the level of detail of the original images, does not introduce artifacts due to insufficient capacity of the underlying neural network and simplifies training process, to name a few. We demonstrate the efficiency of the proposed architecture on the challenging gaze correction task where our system achieves excellent results. In the third article, we slightly diverge from pure computer vision and study a more general problem of domain adaption. There, we introduce a novel training-time algorithm (\ie, adaptation is attained by using an auxilliary objective in addition to the main one). We seek to extract features that maximally confuse a dedicated network called domain classifier while being useful for the task at hand. The domain classifier is learned simultaneosly with the features and attempts to tell whether those features are coming from the source or the target domain. The proposed technique is easy to implement, yet results in superior performance in all the standard benchmarks. Finally, the fourth article presents a new kind of generative model for image data. Unlike conventional neural network based approaches our system dubbed SPIRAL describes images in terms of concise low-level programs executed by off-the-shelf rendering software used by humans to create visual content. Among other things, this allows SPIRAL not to waste its capacity on minutae of datasets and focus more on the global structure. The latent space of our model is easily interpretable by design and provides means for predictable image manipulation. We test our approach on several popular datasets and demonstrate its power and flexibility.

Styles APA, Harvard, Vancouver, ISO, etc.

Nous offrons des réductions sur tous les plans premium pour les auteurs dont les œuvres sont incluses dans des sélections littéraires thématiques. Contactez-nous pour obtenir un code promo unique!