Acceder

Bibliografías temáticas / Apprentissage profond géométrique

Índice

Tesis

Literatura académica sobre el tema "Apprentissage profond géométrique"

Autor: Grafiati

Publicado: 25 de mayo de 2024

Crea una cita precisa en los estilos APA, MLA, Chicago, Harvard y otros

Elija tipo de fuente:

Consulte las listas temáticas de artículos, libros, tesis, actas de conferencias y otras fuentes académicas sobre el tema "Apprentissage profond géométrique".

Junto a cada fuente en la lista de referencias hay un botón "Agregar a la bibliografía". Pulsa este botón, y generaremos automáticamente la referencia bibliográfica para la obra elegida en el estilo de cita que necesites: APA, MLA, Harvard, Vancouver, Chicago, etc.

También puede descargar el texto completo de la publicación académica en formato pdf y leer en línea su resumen siempre que esté disponible en los metadatos.

Tesis sobre el tema "Apprentissage profond géométrique"

1

Mazari, Ahmed. "Apprentissage profond pour la reconnaissance d’actions en vidéos." Electronic Thesis or Diss., Sorbonne université, 2020. http://www.theses.fr/2020SORUS171.

Texto completo

Resumen

De nos jours, les contenus vidéos sont omniprésents grâce à Internet et les smartphones, ainsi que les médias sociaux. De nombreuses applications de la vie quotidienne, telles que la vidéo surveillance et la description de contenus vidéos, ainsi que la compréhension de scènes visuelles, nécessitent des technologies sophistiquées pour traiter les données vidéos. Il devient nécessaire de développer des moyens automatiques pour analyser et interpréter la grande quantité de données vidéo disponibles. Dans cette thèse, nous nous intéressons à la reconnaissance d'actions dans les vidéos, c.a.d au problème de l'attribution de catégories d'actions aux séquences vidéos. Cela peut être considéré comme un ingrédient clé pour construire la prochaine génération de systèmes visuels. Nous l'abordons avec des méthodes d'intelligence artificielle, sous le paradigme de l'apprentissage automatique et de l'apprentissage profond, notamment les réseaux de neurones convolutifs. Les réseaux de neurones convolutifs actuels sont de plus en plus profonds, plus gourmands en données et leur succès est donc tributaire de l'abondance de données d'entraînement étiquetées. Les réseaux de neurones convolutifs s'appuient également sur le pooling qui réduit la dimensionnalité des couches de sortie (et donc atténue leur sensibilité à la disponibilité de données étiquetées)<br>Nowadays, video contents are ubiquitous through the popular use of internet and smartphones, as well as social media. Many daily life applications such as video surveillance and video captioning, as well as scene understanding require sophisticated technologies to process video data. It becomes of crucial importance to develop automatic means to analyze and to interpret the large amount of available video data. In this thesis, we are interested in video action recognition, i.e. the problem of assigning action categories to sequences of videos. This can be seen as a key ingredient to build the next generation of vision systems. It is tackled with AI frameworks, mainly with ML and Deep ConvNets. Current ConvNets are increasingly deeper, data-hungrier and this makes their success tributary of the abundance of labeled training data. ConvNets also rely on (max or average) pooling which reduces dimensionality of output layers (and hence attenuates their sensitivity to the availability of labeled data); however, this process may dilute the information of upstream convolutional layers and thereby affect the discrimination power of the trained video representations, especially when the learned action categories are fine-grained

Los estilos APA, Harvard, Vancouver, ISO, etc.

2

Maignant, Elodie. "Plongements barycentriques pour l'apprentissage géométrique de variétés : application aux formes et graphes." Electronic Thesis or Diss., Université Côte d'Azur, 2023. http://www.theses.fr/2023COAZ4096.

Texto completo

Resumen

Une image obtenue par IRM, c'est plus de 60 000 pixels. La plus grosse protéine connue chez l'être humain est constituée d'environ 30 000 acides aminés. On parle de données en grande dimension. En réalité, la plupart des données en grande dimension ne le sont qu'en apparence. Par exemple, de toutes les images que l'on pourrait générer aléatoirement en coloriant 256 x 256 pixels, seule une infime proportion ressemblerait à l'image IRM d'un cerveau humain. C'est ce qu'on appelle la dimension intrinsèque des données. En grande dimension, apprentissage rime donc souvent avec réduction de dimension. Il existe de nombreuses méthodes de réduction de dimension, les plus récentes pouvant être classées selon deux approches.Une première approche, connue sous le nom d'apprentissage de variétés (manifold learning) ou réduction de dimension non linéaire, part du constat que certaines lois physiques derrière les données que l'on observe ne sont pas linéaires. Ainsi, espérer expliquer la dimension intrinsèque des données par un modèle linéaire est donc parfois irréaliste. Au lieu de cela, les méthodes qui relèvent du manifold learning supposent un modèle localement linéaire.D'autre part, avec l'émergence du domaine de l'analyse statistique de formes, il y eu une prise de conscience que de nombreuses données sont naturellement invariantes à certaines symétries (rotations, permutations, reparamétrisations...), invariances qui se reflètent directement sur la dimension intrinsèque des données. Ces invariances, la géométrie euclidienne ne peut pas les retranscrire fidèlement. Ainsi, on observe un intérêt croissant pour la modélisation des données par des structures plus fines telles que les variétés riemanniennes. Une deuxième approche en réduction de dimension consiste donc à généraliser les méthodes existantes à des données à valeurs dans des espaces non-euclidiens. On parle alors d'apprentissage géométrique. Jusqu'à présent, la plupart des travaux en apprentissage géométrique se sont focalisés sur l'analyse en composantes principales.Dans la perspective de proposer une approche qui combine à la fois apprentissage géométrique et manifold learning, nous nous sommes intéressés à la méthode appelée locally linear embedding, qui a la particularité de reposer sur la notion de barycentre, notion a priori définie dans les espaces euclidiens mais qui se généralise aux variétés riemanniennes. C'est d'ailleurs sur cette même notion que repose une autre méthode appelée barycentric subspace analysis, et qui fait justement partie des méthodes qui généralisent l'analyse en composantes principales aux variétés riemanniennes. Ici, nous introduisons la notion nouvelle de plongement barycentrique, qui regroupe les deux méthodes. Essentiellement, cette notion englobe un ensemble de méthodes dont la structure rappelle celle des méthodes de réduction de dimension linéaires et non linéaires, mais où le modèle (localement) linéaire est remplacé par un modèle barycentrique -- affine.Le cœur de notre travail consiste en l'analyse de ces méthodes, tant sur le plan théorique que pratique. Du côté des applications, nous nous intéressons à deux exemples importants en apprentissage géométrique : les formes et les graphes. En particulier, on démontre que par rapport aux méthodes standard de réduction de dimension en analyse statistique des graphes, les plongements barycentriques se distinguent par leur meilleure interprétabilité. En plus des questions pratiques liées à l'implémentation, chacun de ces exemples soulève ses propres questions théoriques, principalement autour de la géométrie des espaces quotients. Parallèlement, nous nous attachons à caractériser géométriquement les plongements localement barycentriques, qui généralisent la projection calculée par locally linear embedding. Enfin, de nouveaux algorithmes d'apprentissage géométrique, novateurs dans leur approche, complètent ce travail<br>An MRI image has over 60,000 pixels. The largest known human protein consists of around 30,000 amino acids. We call such data high-dimensional. In practice, most high-dimensional data is high-dimensional only artificially. For example, of all the images that could be randomly generated by coloring 256 x 256 pixels, only a very small subset would resemble an MRI image of a human brain. This is known as the intrinsic dimension of such data. Therefore, learning high-dimensional data is often synonymous with dimensionality reduction. There are numerous methods for reducing the dimension of a dataset, the most recent of which can be classified according to two approaches.A first approach known as manifold learning or non-linear dimensionality reduction is based on the observation that some of the physical laws behind the data we observe are non-linear. In this case, trying to explain the intrinsic dimension of a dataset with a linear model is sometimes unrealistic. Instead, manifold learning methods assume a locally linear model.Moreover, with the emergence of statistical shape analysis, there has been a growing awareness that many types of data are naturally invariant to certain symmetries (rotations, reparametrizations, permutations...). Such properties are directly mirrored in the intrinsic dimension of such data. These invariances cannot be faithfully transcribed by Euclidean geometry. There is therefore a growing interest in modeling such data using finer structures such as Riemannian manifolds. A second recent approach to dimension reduction consists then in generalizing existing methods to non-Euclidean data. This is known as geometric learning.In order to combine both geometric learning and manifold learning, we investigated the method called locally linear embedding, which has the specificity of being based on the notion of barycenter, a notion a priori defined in Euclidean spaces but which generalizes to Riemannian manifolds. In fact, the method called barycentric subspace analysis, which is one of those generalizing principal component analysis to Riemannian manifolds, is based on this notion as well. Here we rephrase both methods under the new notion of barycentric embeddings. Essentially, barycentric embeddings inherit the structure of most linear and non-linear dimension reduction methods, but rely on a (locally) barycentric -- affine -- model rather than a linear one.The core of our work lies in the analysis of these methods, both on a theoretical and practical level. In particular, we address the application of barycentric embeddings to two important examples in geometric learning: shapes and graphs. In addition to practical implementation issues, each of these examples raises its own theoretical questions, mostly related to the geometry of quotient spaces. In particular, we highlight that compared to standard dimension reduction methods in graph analysis, barycentric embeddings stand out for their better interpretability. In parallel with these examples, we characterize the geometry of locally barycentric embeddings, which generalize the projection computed by locally linear embedding. Finally, algorithms for geometric manifold learning, novel in their approach, complete this work

Los estilos APA, Harvard, Vancouver, ISO, etc.

3

Girard, Nicolas. "Approches d'apprentissage et géométrique pour l'extraction automatique d'objets à partir d'images de télédétection." Thesis, Université Côte d'Azur, 2020. https://tel.archives-ouvertes.fr/tel-03177997.

Texto completo

Resumen

Créer un double numérique de la Terre sous forme de cartes a de nombreuses applications comme la conduite autonome, la planification urbaine, les télécommunications, la gestion des catastrophes naturelles, etc. Les systèmes d'information géographique (SIG) sont utilisés pour intégrer des données géolocalisées sous forme de cartes. Les SIG utilisent une représentation vectorielle pour les objets, prenant peu d'espace mémoire et rendant leur modification plus facile que des données raster. Avec la quantité croissante d'images satellites et aériennes capturées chaque jour, des méthodes automatiques sont en cours de développement pour extraire les informations de ces images de télédétection. Les méthodes d'apprentissage profond pour la segmentation d'images sont capables de délimiter les formes des objets, mais elles le font avec une représentation raster, sous la forme d'une carte de probabilité. Des méthodes de vectorisation post-traitement convertissent ensuite cette représentation raster en une représentation vectorielle compatible avec les SIG. Un autre défi de la télédétection est de gérer un certain type de bruit dans les données, qui est le désalignement entre différentes couches d'informations géolocalisées (par exemple entre les images et les cadastres des bâtiments). Ce type de bruit est fréquent en raison de diverses erreurs introduites lors du traitement des données de télédétection. Cette thèse développe des approches combinées d'apprentissage et géométriques dans le but d'améliorer l'automatisation du processus de cartographie SIG à partir d'images de télédétection.Nous proposons d'abord une méthode pour corriger une carte mal alignée sur une image, pur faire correspondre ces deux données géolocalisées, et aussi pour créer des jeu de données de télédétection pour la segmentation d'images avec une vérité terrain corrigé. En effet, entraîner un modèle sur une vérité terrain mal alignée ne mènerait pas à de bonnes segmentations. Au cours de ce travail, nous avons également observé un effet de débruitage par notre modèle d'alignement et l'avons utilisé pour débruiter un jeu de données mal aligné de manière auto-supervisée, ce qui signifie que seul le jeu de données mal aligné a été utilisé pour l'apprentissage.Nous proposons ensuite une approche simple pour utiliser un réseau de neurones produisant directement une représentation vectorielle de l'objet à détecter, afin de contourner l'étape de vectorisation post-traitement. Nous démontrons qu'il est possible d'apprendre à régresser les coordonnées de polygones (avec un nombre de sommets fixes dans notre cas), produisant directement des sorties cartographiques vectorielles.Bien que les méthodes plus récentes d'apprentissage directement en représentation vectorielle sont maintenant plus évoluées, elles ont encore d'autres limitations en termes de type de formes d'objets qu'elles peuvent prédire. Des cas topologiques plus complexes tels que des objets avec des trous ou des bâtiments se touchant ayant un mur mitoyen ne sont pas gérés par ces méthodes d'apprentissage. Nous proposons ainsi une approche hybride palliant ces limitations en entraînant un réseau de neurones pour produire une carte de probabilité de segmentation comme usuellement, mais aussi pour produire un “frame field” (4 champs vectoriels superposés) aligné avec les contours des objets détectés. Ce “frame field” encode des informations géométriques supplémentaires apprises par le réseau. Nous proposons ensuite notre méthode de polygonisation parallélisable pour exploiter ce “frame field” pour vectoriser efficacement la carte de probabilité de segmentation. Notre méthode de polygonisation ayant accès à des informations supplémentaires sous la forme d'un “frame field” elle peut être moins complexe que d'autres méthodes de vectorisation avancées et donc plus rapide. De plus calculer ce “frame field” n'augmente pratiquement pas le temps d'inférence, il n'est que bénéfique<br>Creating a digital double of the Earth in the form of maps has many applications in e.g. autonomous driving, automated drone delivery, urban planning, telecommunications, and disaster management. Geographic Information Systems (GIS) are the frameworks used to integrate geolocalized data and represent maps. They represent shapes of objects in a vector representation so that it is as sparse as possible while representing shapes accurately, as well as making it easier to edit than raster data. With the increasing amount of satellite and aerial images being captured every day, automatic methods are being developed to transfer the information found in those remote sensing images into Geographic Information Systems. Deep learning methods for image segmentation are able to delineate the shapes of objects found in images however they do so with a raster representation, in the form of a mask. Post-processing vectorization methods then convert that raster representation into a vector representation compatible with GIS. Another challenge in remote sensing is to deal with a certain type of noise in the data, which is the misalignment between different layers of geolocalized information (e.g. between images and building cadaster data). This type of noise is frequent due to various errors introduced during the processing of remote sensing data. This thesis develops combined learning and geometric approaches with the purpose to improve automatic GIS mapping from remote sensing images.We first propose a method for correcting misaligned maps over images, with the first motivation for them to match, but also with the motivation to create remote sensing datasets for image segmentation with alignment-corrected ground truth. Indeed training a model on misaligned ground truth would not lead to great performance, whereas aligned ground truth annotations will result in better models. During this work we also observed a denoising effect of our alignment model and use it to denoise a misaligned dataset in a self-supervised manner, meaning only the misaligned dataset was used for training.We then propose a simple approach to use a neural network to directly output shape information in the vector representation, in order to by-pass the post-processing vectorization step. Experimental results on a dataset of solar panels show that the proposed network succeeds in learning to regress polygon coordinates, yielding directly vectorial map outputs. Our simple method is limited to predicting polygons with a fixed number of vertices though.While more recent methods for learning directly in the vector representation do not have this limitation, they still have other limitations in terms of the type of object shapes they can predict. More complex topological cases such as objects with holes or buildings touching each other (with a common wall which is very typical of European city centers) are not handled by these fully deep learning methods. We thus propose a hybrid approach alleviating those limitations by training a neural network to output a segmentation probability map as usual and also to output a frame field aligned with the contours of detected objects (buildings in our case). That frame field constitutes additional shape information learned by the network. We then propose our highly parallelizable polygonization method for leveraging that frame field information to vectorize the segmentation probability map efficiently. Because our polygonization method has access to additional information in the form of a frame field, it can be less complex than other advanced vectorization methods and is thus faster. Lastly, requiring an image segmentation network to also output a frame field only adds two convolutional layers and virtually does not increase inference time, making the use of a frame field only beneficial

Los estilos APA, Harvard, Vancouver, ISO, etc.

4

Fang, Hao. "Modélisation géométrique à différent niveau de détails d'objets fabriqués par l'homme." Thesis, Université Côte d'Azur (ComUE), 2019. http://www.theses.fr/2019AZUR4002/document.

Texto completo

Resumen

La modélisation géométrique d'objets fabriqués par l'homme à partir de données 3D est l'un des plus grands défis de la vision par ordinateur et de l'infographie. L'objectif à long terme est de générer des modèles de type CAO de la manière la plus automatique possible. Pour atteindre cet objectif, des problèmes difficiles doivent être résolus, notamment (i) le passage à l'échelle du processus de modélisation sur des données d'entrée massives, (ii) la robustesse de la méthodologie contre des mesures d'entrées erronés, et (iii) la qualité géométrique des modèles de sortie. Les méthodes existantes fonctionnent efficacement pour reconstruire la surface des objets de forme libre. Cependant, dans le cas d'objets fabriqués par l'homme, il est difficile d'obtenir des résultats dont la qualité approche celle des représentations hautement structurées, comme les modèles CAO. Dans cette thèse, nous présentons une série de contributions dans ce domaine. Tout d'abord, nous proposons une méthode de classification basée sur l'apprentissage en profondeur pour distinguer des objets dans des environnements complexes à partir de nuages de points 3D. Deuxièmement, nous proposons un algorithme pour détecter des primitives planaires dans des données 3D à différents niveaux d'abstraction. Enfin, nous proposons un mécanisme pour assembler des primitives planaires en maillages polygonaux compacts. Ces contributions sont complémentaires et peuvent être utilisées de manière séquentielle pour reconstruire des modèles de ville à différents niveaux de détail à partir de données 3D aéroportées. Nous illustrons la robustesse, le passage à l'échelle et l'efficacité de nos méthodes sur des données laser et multi-vues stéréo sur des scènes composées d'objets fabriqués par l'homme<br>Geometric modeling of man-made objects from 3D data is one of the biggest challenges in Computer Vision and Computer Graphics. The long term goal is to generate a CAD-style model in an as-automatic-as-possible way. To achieve this goal, difficult issues have to be addressed including (i) the scalability of the modeling process with respect to massive input data, (ii) the robustness of the methodology to various defect-laden input measurements, and (iii) the geometric quality of output models. Existing methods work well to recover the surface of free-form objects. However, in case of manmade objects, it is difficult to produce results that approach the quality of high-structured representations as CAD models.In this thesis, we present a series of contributions to the field. First, we propose a classification method based on deep learning to distinguish objects from raw 3D point cloud. Second, we propose an algorithm to detect planar primitives in 3D data at different level of abstraction. Finally, we propose a mechanism to assemble planar primitives into compact polygonal meshes. These contributions are complementary and can be used sequentially to reconstruct city models at various level-of-details from airborne 3D data. We illustrate the robustness, scalability and efficiency of our methods on both laser and multi-view stereo data composed of man-made objects

Los estilos APA, Harvard, Vancouver, ISO, etc.

5

Mehr, Éloi. "Unsupervised Learning of 3D Shape Spaces for 3D Modeling." Electronic Thesis or Diss., Sorbonne université, 2019. http://www.theses.fr/2019SORUS566.

Texto completo

Resumen

Bien que les données 3D soient de plus en plus populaires, en particulier avec la démocratisation des expériences de réalité virtuelle et augmentée, il reste très difficile de manipuler une forme 3D, même pour des designers ou des experts. Partant d’une base de données d’instances 3D d’une ou plusieurs catégories d’objets, nous voulons apprendre la variété des formes plausibles en vue de développer de nouveaux outils intelligents de modélisation et d’édition 3D. Cependant, cette variété est souvent bien plus complexe comparée au domaine 2D. En effet, les surfaces 3D peuvent être représentées en utilisant plusieurs plongements distincts, et peuvent aussi exhiber des alignements ou des topologies différentes. Dans cette thèse, nous étudions la variété des formes plausibles à la lumière des défis évoqués précédemment, en approfondissant trois points de vue différents. Tout d'abord, nous considérons la variété comme un espace quotient, dans le but d’apprendre la géométrie intrinsèque des formes à partir d’une base de données où les modèles 3D ne sont pas co-alignés. Ensuite, nous supposons que la variété est non connexe, ce qui aboutit à un nouveau modèle d’apprentissage profond capable d’automatiquement partitionner et apprendre les formes selon leur typologie. Enfin, nous étudions la conversion d’une entrée 3D non structurée vers une géométrie exacte, représentée comme un arbre structuré de primitives solides continues<br>Even though 3D data is becoming increasingly more popular, especially with the democratization of virtual and augmented experiences, it remains very difficult to manipulate a 3D shape, even for designers or experts. Given a database containing 3D instances of one or several categories of objects, we want to learn the manifold of plausible shapes in order to develop new intelligent 3D modeling and editing tools. However, this manifold is often much more complex compared to the 2D domain. Indeed, 3D surfaces can be represented using various embeddings, and may also exhibit different alignments and topologies. In this thesis we study the manifold of plausible shapes in the light of the aforementioned challenges, by deepening three different points of view. First of all, we consider the manifold as a quotient space, in order to learn the shapes’ intrinsic geometry from a dataset where the 3D models are not co-aligned. Then, we assume that the manifold is disconnected, which leads to a new deep learning model that is able to automatically cluster and learn the shapes according to their typology. Finally, we study the conversion of an unstructured 3D input to an exact geometry, represented as a structured tree of continuous solid primitives

Los estilos APA, Harvard, Vancouver, ISO, etc.

6

Hosni, Nadia. "De l’analyse en composantes principales fonctionnelle à l’autoencodeur convolutif profond sur les trajectoires de formes de Kendall pour l’analyse et la reconnaissance de la démarche en 3D." Thesis, Lille 1, 2020. http://www.theses.fr/2020LIL1I066.

Texto completo

Resumen

Récemment, le développement de solutions automatiques et intelligentes pour la compréhension du contenu des vidéos et plus particulièrement pour l’analyse spatio-temporelle des mouvements Humains est au cœur de plusieurs domaines de recherche tels que les vidéos surveillances, les interactions Homme-Machine et la rééducation. Dans ce projet de thèse, nous proposons de procéder à l’analyse et la reconnaissance de la démarche en 3D qui est aussi un domaine de recherche actif en biométrie comportementale grâce au caractère non-invasif (aucune coopération de l’utilisateur), convivial (user-friendly) et bon marché de la démarche. Cette dernière a suscité plus d’intérêt avec la démocratisation de caméras de profondeurs bon marché (e.g., la Kinect), capables d’estimer en temps réel et de manière relativement précise les squelettes 3D et leurs mouvements, quand la personne est dans le champ de vue du capteur. Mais ces données squelettiques souffrent de la variabilité temporelle et spatiale. Pour faire face à ces verrous, nous proposons des nouvelles approches à partir de données squelettiques 3D où une séquence est d’abord représentée sur l’espace de formes de Kendall S par une trajectoire paramétrée par le temps. Les variabilités liées à l’échelle, la translation et la rotation sont ainsi filtrées. Cependant, vu la structure sphérique (non-linéaire) de la variété S, il n’est pas possible d’appliquer des techniques d’apprentissage automatique conventionnelle directement. C’est pourquoi nous avons eu recours à quelques outils de la géométrie riemannienne pour gérer le problème de non-linéarité. Notre première contribution présente une adaptation de l’Analyse en Composantes Principales Fonctionnelle (ACP fonctionnelle), qui tient compte de la nonlinéarité de l’espace de Kendall S. A l’issue de l’étape d’apprentissage, une nouvelle base de trajectoires principales, i.e., fonctions principales, est constituée. Étant donné une nouvelle trajectoire, elle est projetée sur cette nouvelle base avant d’être classée par une Machine à Vecteurs de Support (SVM). Les résultats expérimentaux sur différentes bases de données sont très compétitifs comparés à la littérature avec en plus une signature plus compacte et plus robuste. De plus, motivés par la puissance des réseaux de neurones et de l’apprentissage profond (Deep Learning), nous proposons, en deuxième méthode, un autoencodeur convolutif profond à caractère géométrique puisqu’il analyse les trajectoires de formes précédemment citées tout en tenant compte de la structure géométrique de notre espace de représentation. En fait, des étapes géométriques assurent que ces trajectoires peuvent être transmises à l’autoencodeur convolutif pour aboutir à une représentation compacte et discriminante permettant une bonne identification des personnes, et ce sans avoir recours à aucune technique d’alignement (e.g., DTW) ni de modélisation temporelle (e.g., HMM, RNN). Les résultats obtenus sur plusieurs bases publiques sont prometteurs par application à la reconnaissance de la démarche en 3D<br>In the field of Computer Vision and Pattern Recognition, human behavior understanding has attracted the attention of several research groups and specialized companies. Successful intelligent solutions will be playing an important role in applications which involve humanrobot or human-computer interaction, biometrics recognition (security), and physical performance assessment (healthcare and well-being) since it will help the human beings were their cognitive and limited capabilities cannot perform well. In my thesis project, we investigate the problem of 3D gait recognition and analysis as gait is user-friendly and a well-accepted technology especially with the availability of RGB-D sensors and algorithms for detecting and tracking of human landmarks in video streams. Unlike other biometrics such as fingerprints, face or iris, it can be acquired at a large distance and do not require any collaboration of the end user. This point makes gait recognition suitable in intelligent video surveillance problems used, for example, in the security field as one of the behavioral biometrics or in healthcare as good physical patterns. However, using 3D human body tracked landmarks to provide such motions’ analysis faces many challenges like spatial and temporal variations and high dimension. Hence, in this thesis, we propose novel frameworks to infer 3D skeletal sequences for the purpose of 3D gait analysis and recognition. They are based on viewing the above-cited sequences as time-parameterized trajectories on the Kendall shape space S, results of modding out shape-preserving transformations, i.e., scaling, translation and rotation. Considering the non-linear structure of the manifold on which these shape trajectories are lying, the use of the conventional machine learning tools and the standard computational tools cannot be straightforward. Hence, we make use of geometric steps related to the Riemannian geometry in order to handle the problem of nonlinearity. Our first contribution is a geometric-functional framework for 3D gait analysis with a direct application to behavioral biometric recognition and physical performance assessment. We opt for an extension of the functional Principal Component Analysis to the underlying space. This functional analysis of trajectories, grounding on the geometry of the space of representation, allows to extract compact and efficient biometric signatures. In addition, we also propose a geometric deep convolutional auto-encoder (DCAE) for the purpose of gait recognition from time-varying 3D skeletal data. To accommodate the Neural Network architectures to obtained manifold-valued trajectories on the underlying non-linear space S, these trajectories are mapped to a certain vector space by means of someRiemannien geometry tools, prior to the encoding-decoding scheme. Without applying any prior temporal alignment step (e.g., Dynamic Time Warping) or modeling (e.g., HMM, RNN), they are then fed to a convolutional auto-encoder to build an identity-relevant latent space that showed discriminating capacities for identifying persons when no Temporal Alignment is applied to the time-parametrized gait trajectories: Efficient gait patterns are extracted. Both approaches were tested on several publicly available datasets and shows promising results

Los estilos APA, Harvard, Vancouver, ISO, etc.

7

Poulenard, Adrien. "Structures for deep learning and topology optimization of functions on 3D shapes." Thesis, Institut polytechnique de Paris, 2020. http://www.theses.fr/2020IPPAX007.

Texto completo

Resumen

Le domaine du traitement de la géométrie suit un cheminement similaire à celui de l'analyse d'images avec l'explosion des publications consacrées à l'apprentissage profond ces dernières années. Un important effort de recherche est en cours pour reproduire les succès de l'apprentissage profond dans le domaine de la vision par ordinateur dans le contexte de l'analyse de formes 3D. Contrairement aux images, les formes 3D peuvent peuvent être représentées de différentes manières comme des maillages ou des nuages de points souvent dépourvus d'une structure canonique. Les algorithmes d'apprentissage profond traditionnels tels que les réseaux neuronaux convolutifs (CNN) ne sont donc pas faciles à appliquer aux formes 3D. Dans cette thèse, nous proposons trois contributions principales : premièrement, nous introduisons une méthode permettant de comparer des fonctions sur des domaines différents sans correspondances et de les déformer afin de rendre la topologie de leur ensemble de niveaux similaires. Nous appliquons notre méthode au problème classique de la correspondance de formes dans le contexte des applications fonctionnelles (functional maps) afin de produire des correspondances plus lisses et plus précises. Par ailleurs notre méthode reposant sur l'optimisation continue d'une énergie différentiable par rapport aux fonctions comparées elle est applicable à l'apprentissage profond. Nous apportons deux contributions directes à l'apprentissage profond des données 3D. Nous introduisons un nouvel opérateur de convolution sur des maillages triangulaires basés sur des coordonnées polaires locales et l'appliquons à l'apprentissage profond sur les maillages. Contrairement aux travaux précédents, notre opérateur prend en compte tous les choix de coordonnées polaires sans perte d'information directionnelle. Enfin, nous introduisons un nouveau module de convolution invariant par rotation sur les nuages de points et montrons que les CNN basés sur ce dernier peuvent surpasser l'état de l'art pour des tâches standard sur des ensembles de données non alignés même avec augmentation des données<br>The field of geometry processing is following a similar path as image analysis with the explosion of publications dedicated to deep learning in recent years. An important research effort is being made to reproduce the successes of deep learning 2D computer vision in the context of 3D shape analysis. Unlike images shapes comes in various representations like meshes or point clouds which often lack canonical structure. This makes traditional deep learning algorithms like Convolutional Neural Networks (CNN) non straightforward to apply to 3D data. In this thesis we propose three main contributions:First, we introduce a method to compare functions on different domains without correspondences and to deform them to make the topology of their set of levels more alike. We apply our method to the classical problem of shape matching in the context of functional maps to produce smoother and more accurate correspondences. Furthermore, our method is based on the continuous optimization of a differentiable energy with respect to the compared functions and is applicable to deep learning. We make two direct contributions to deep learning on 3D data. We introduce a new convolution operator over triangles meshes based on local polar coordinates and apply it to deep learning on meshes. Unlike previous works our operator takes all choices of polar coordinates into account without loss of directional information. Lastly we introduce a new rotation invariant convolution layer over point clouds and show that CNNs based on this layer can outperform state of the art methods in standard tasks on un-alligned datasets even with data augmentation

Los estilos APA, Harvard, Vancouver, ISO, etc.

8

Madra, Anna. "Analyse et visualisation de la géométrie des matériaux composites à partir de données d’imagerie 3D." Thesis, Compiègne, 2017. http://www.theses.fr/2017COMP2387/document.

Texto completo

Resumen

Le sujet du projet de thèse réalisée en cotutelle entre Laboratoire Roberval à l'Université de Technologie de Compiègne et le Centre de Composites à Haute Performance d'École Polytechnique de Montréal porté sur une proposition de l'architecture du deep learning avec sémantique pour la création automatisée des modèles de la microstructure de matériaux composites à partir d'imagerie de la micrographie aux rayons X. La thèse consiste de trois parties principales : d'abord les méthodes du prétraitement de données microtomographiques sont relevées, avec l'accent sur la segmentation de phases à partir d'images 2D. Ensuite, les propriétés géométriques des éléments de phases sont extraites et utilisées pour classifier et identifier de nouvelles morphologies. Cela est démontré pour le cas de composites chargés par les fibres courtes naturelles. L'approche de classification à l'aide des algorithmes d'apprentissage est reprise pour étudier les défauts dans un composite, mais en ajoutant les aspects spatiaux. En plus, un descripteur de haut niveau "génome de défauts" est introduit, qui permet de comparer l'état de défauts dans les différents échantillons. La deuxième partie introduit la segmentation structurelle sur l'exemple du renfort tissé du composite. La méthode repose sur un modèle du krigeage dual, calibré par l'erreur de segmentation provenant d'algorithme d'apprentissage. Finalement, le modèle krigé est repris pour construire une formulation stochastique du renfort à travers de processus gaussien et la distribution des propriétés physiques de la microstructure est extraite et prête pour la simulation numérique de la fabrication ou du comportement mécanique<br>The subject of the thesis project between Laboratoire Roberval at Université de Technologie Compiègne and Center for High-Performance Composites at Ecole Polytechnique de Montréal considered the design of a deep learning architecture with semantics for automatic generation of models of composite materials microstructure based on X-ray microtomographic imagery. The thesis consists of three major parts. Firstly, the methods of microtomographic image processing are presented, with an emphasis on phase segmentation. Then, the geometric features of phase elements are extracted and used to classify and identify new morphologies. The method is presented for composites filled with short natural fibers. The classification approach is also demonstrated for the study of defects in composites, but with spatial features added to the process. A high-level descriptor "defect genome" is proposed, that permits comparison of the state o defects between specimens. The second part of the thesis introduces structural segmentation on the example of woven reinforcement in a composite. The method relies on dual kriging, calibrated by the segmentation error from learning algorithms. In the final part, a stochastic formulation of the kriging model is presented based on Gaussian Processes, and distribution of physical properties of a composite microstructure is retrieved, ready for numerical simulation of the manufacturing process or of mechanical behavior

Los estilos APA, Harvard, Vancouver, ISO, etc.

Ofrecemos descuentos en todos los planes premium para autores cuyas obras están incluidas en selecciones literarias temáticas. ¡Contáctenos para obtener un código promocional único!