To see the other types of publications on this topic, follow the link: Apprentissage de représentations vidéos.

Dissertations / Theses on the topic 'Apprentissage de représentations vidéos'

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the top 50 dissertations / theses for your research on the topic 'Apprentissage de représentations vidéos.'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Browse dissertations / theses on a wide variety of disciplines and organise your bibliography correctly.

1

Francis, Danny. "Représentations sémantiques d'images et de vidéos." Electronic Thesis or Diss., Sorbonne université, 2019. http://www.theses.fr/2019SORUS605.

Full text
Abstract:
Des travaux de recherche récents en apprentissage profond ont permis d’améliorer significativement les performances des modèles multimédias : avec la création de grands jeux de données d’images ou de vidéos annotées, les réseaux de neurones profonds ont surpassé les modèles précédemment utilisés dans la plupart des cas. Dans cette thèse, nous avons développé de nouveaux modèles neuronaux profonds permettant de générer des représentations sémantiques d’images et de vidéos. Nous nous sommes intéressés à deux tâches principales : l’appariement d’images ou de vidéos et de textes, et la génération automatique de légendes. La tâche d’appariement peut être réalisée par le biais d’un espace multimodal commun permettant de comparer images ou vidéos et textes. Nous avons pour cela défini deux types de modèles d’appariement en nous inspirant des travaux récents sur les réseaux de capsules. La génération automatique de légendes textuelles est une tâche ardue, puisqu’elle demande à analyser un objet visuel, et à le transcrire en une description en langage naturel. Pour cela, nous proposons deux méthodes d’apprentissage par curriculum. Par ailleurs, nous avons défini une méthode permettant à un modèle de génération de légendes de vidéos de combiner des informations spatiales et temporelles. Des expériences ont permis de prouver l’intérêt de nos propositions par rapport aux travaux existants
Recent research in Deep Learning has sent the quality of results in multimedia tasks rocketing: thanks to new big datasets of annotated images and videos, Deep Neural Networks (DNN) have outperformed other models in most cases. In this thesis, we aim at developing DNN models for automatically deriving semantic representations of images and videos. In particular we focus on two main tasks : vision-text matching and image/video automatic captioning. Addressing the matching task can be done by comparing visual objects and texts in a visual space, a textual space or a multimodal space. Based on recent works on capsule networks, we define two novel models to address the vision-text matching problem: Recurrent Capsule Networks and Gated Recurrent Capsules. In image and video captioning, we have to tackle a challenging task where a visual object has to be analyzed, and translated into a textual description in natural language. For that purpose, we propose two novel curriculum learning methods. Moreover regarding video captioning, analyzing videos requires not only to parse still images, but also to draw correspondences through time. We propose a novel Learned Spatio-Temporal Adaptive Pooling method for video captioning that combines spatial and temporal analysis. Extensive experiments on standard datasets assess the interest of our models and methods with respect to existing works
APA, Harvard, Vancouver, ISO, and other styles
2

Mazari, Ahmed. "Apprentissage profond pour la reconnaissance d’actions en vidéos." Electronic Thesis or Diss., Sorbonne université, 2020. http://www.theses.fr/2020SORUS171.

Full text
Abstract:
De nos jours, les contenus vidéos sont omniprésents grâce à Internet et les smartphones, ainsi que les médias sociaux. De nombreuses applications de la vie quotidienne, telles que la vidéo surveillance et la description de contenus vidéos, ainsi que la compréhension de scènes visuelles, nécessitent des technologies sophistiquées pour traiter les données vidéos. Il devient nécessaire de développer des moyens automatiques pour analyser et interpréter la grande quantité de données vidéo disponibles. Dans cette thèse, nous nous intéressons à la reconnaissance d'actions dans les vidéos, c.a.d au problème de l'attribution de catégories d'actions aux séquences vidéos. Cela peut être considéré comme un ingrédient clé pour construire la prochaine génération de systèmes visuels. Nous l'abordons avec des méthodes d'intelligence artificielle, sous le paradigme de l'apprentissage automatique et de l'apprentissage profond, notamment les réseaux de neurones convolutifs. Les réseaux de neurones convolutifs actuels sont de plus en plus profonds, plus gourmands en données et leur succès est donc tributaire de l'abondance de données d'entraînement étiquetées. Les réseaux de neurones convolutifs s'appuient également sur le pooling qui réduit la dimensionnalité des couches de sortie (et donc atténue leur sensibilité à la disponibilité de données étiquetées)
Nowadays, video contents are ubiquitous through the popular use of internet and smartphones, as well as social media. Many daily life applications such as video surveillance and video captioning, as well as scene understanding require sophisticated technologies to process video data. It becomes of crucial importance to develop automatic means to analyze and to interpret the large amount of available video data. In this thesis, we are interested in video action recognition, i.e. the problem of assigning action categories to sequences of videos. This can be seen as a key ingredient to build the next generation of vision systems. It is tackled with AI frameworks, mainly with ML and Deep ConvNets. Current ConvNets are increasingly deeper, data-hungrier and this makes their success tributary of the abundance of labeled training data. ConvNets also rely on (max or average) pooling which reduces dimensionality of output layers (and hence attenuates their sensitivity to the availability of labeled data); however, this process may dilute the information of upstream convolutional layers and thereby affect the discrimination power of the trained video representations, especially when the learned action categories are fine-grained
APA, Harvard, Vancouver, ISO, and other styles
3

Franceschi, Jean-Yves. "Apprentissage de représentations et modèles génératifs profonds dans les systèmes dynamiques." Electronic Thesis or Diss., Sorbonne université, 2022. http://www.theses.fr/2022SORUS014.

Full text
Abstract:
L'essor de l'apprentissage profond trouve notamment sa source dans les avancées scientifiques qu'il a permises en termes d'apprentissage de représentations et de modèles génératifs. Dans leur grande majorité, ces progrès ont cependant été obtenus sur des données textuelles et visuelles statiques, les données temporelles demeurant un défi pour ces méthodes. Compte tenu de leur importance pour l'automatisation croissante de multiples tâches, de plus en plus de travaux en apprentissage automatique s'intéressent aux problématiques d'évolution temporelle. Dans cette thèse, nous étudions ainsi plusieurs aspects de la temporalité et des systèmes dynamiques dans les réseaux de neurones profonds pour l'apprentissage non supervisé de représentations et de modèles génératifs. Premièrement, nous présentons une méthode générale d'apprentissage de représentations non supervisée pour les séries temporelles prenant en compte des besoins pratiques d'efficacité et de flexibilité. Dans un second temps, nous nous intéressons à l'apprentissage pour les séquences structurées de nature spatio-temporelle, couvrant les vidéos et phénomènes physiques. En les modélisant par des équations différentielles paramétrisées par des réseaux de neurones, nous montrons la corrélation entre la découverte de représentations pertinentes d'un côté, et de l'autre la fabrique de modèles prédictifs performants sur ces données. Enfin, nous analysons plus généralement dans une troisième partie les populaires réseaux antagonistes génératifs dont nous décrivons la dynamique d'apprentissage par des équations différentielles, nous permettant d'améliorer la compréhension de leur fonctionnement
The recent rise of deep learning has been motivated by numerous scientific breakthroughs, particularly regarding representation learning and generative modeling. However, most of these achievements have been obtained on image or text data, whose evolution through time remains challenging for existing methods. Given their importance for autonomous systems to adapt in a constantly evolving environment, these challenges have been actively investigated in a growing body of work. In this thesis, we follow this line of work and study several aspects of temporality and dynamical systems in deep unsupervised representation learning and generative modeling. Firstly, we present a general-purpose deep unsupervised representation learning method for time series tackling scalability and adaptivity issues arising in practical applications. We then further study in a second part representation learning for sequences by focusing on structured and stochastic spatiotemporal data: videos and physical phenomena. We show in this context that performant temporal generative prediction models help to uncover meaningful and disentangled representations, and conversely. We highlight to this end the crucial role of differential equations in the modeling and embedding of these natural sequences within sequential generative models. Finally, we more broadly analyze in a third part a popular class of generative models, generative adversarial networks, under the scope of dynamical systems. We study the evolution of the involved neural networks with respect to their training time by describing it with a differential equation, allowing us to gain a novel understanding of this generative model
APA, Harvard, Vancouver, ISO, and other styles
4

Saxena, Shreyas. "Apprentissage de représentations pour la reconnaissance visuelle." Thesis, Université Grenoble Alpes (ComUE), 2016. http://www.theses.fr/2016GREAM080/document.

Full text
Abstract:
Dans cette dissertation, nous proposons des méthodes d’apprentissage automa-tique aptes à bénéficier de la récente explosion des volumes de données digitales.Premièrement nous considérons l’amélioration de l’efficacité des méthodes derécupération d’image. Nous proposons une approche d’apprentissage de métriques locales coordonnées (Coordinated Local Metric Learning, CLML) qui apprends des métriques locales de Mahalanobis, puis les intègre dans une représentation globale où la distance l2 peut être utilisée. Ceci permet de visualiser les données avec une unique représentation 2D, et l’utilisation de méthodes de récupération efficaces basées sur la distance l2. Notre approche peut être interprétée comme l’apprentissage d’une projection linéaire de descripteurs donnés par une méthode a noyaux de grande dimension définie explictement. Cette interprétation permet d’appliquer des outils existants pour l’apprentissage de métriques de Mahalanobis à l’apprentissage de métriques locales coordonnées. Nos expériences montrent que la CLML amé-liore les résultats en matière de récupération de visage obtenues par les approches classiques d’apprentissage de métriques locales et globales.Deuxièmement, nous présentons une approche exploitant les modèles de ré-seaux neuronaux convolutionnels (CNN) pour la reconnaissance faciale dans lespectre visible. L’objectif est l’amélioration de la reconnaissance faciale hétérogène, c’est à dire la reconnaissance faciale à partir d’images infra-rouges avec des images d’entraînement dans le spectre visible. Nous explorerons différentes stratégies d’apprentissage de métriques locales à partir des couches intermédiaires d’un CNN, afin de faire le rapprochement entre des images de sources différentes. Dans nos expériences, la profondeur de la couche optimale pour une tâche donnée est positivement corrélée avec le changement entre le domaine source (données d’entraînement du CNN) et le domaine cible. Les résultats montrent que nous pouvons utiliser des CNN entraînés sur des images du spectre visible pour obtenir des résultats meilleurs que l’état de l’art pour la reconnaissance faciale hétérogène (images et dessins quasi-infrarouges).Troisièmement, nous présentons les "tissus de neurones convolutionnels" (Convolutional Neural Fabrics) permettant l’exploration de l’espace discret et exponentiellement large des architectures possibles de réseaux neuronaux, de manière efficiente et systématique. Au lieu de chercher à sélectionner une seule architecture optimale, nous proposons d’utiliser un "tissu" d’architectures combinant un nombre exponentiel d’architectures en une seule. Le tissu est une représentation 3D connectant les sorties de CNNs à différentes couches, échelles et canaux avec un motif de connectivité locale, homogène et creux. Les seuls hyper-paramètres du tissu (le nombre de canaux et de couches) ne sont pas critiques pour la performance. La nature acyclique du tissu nous permet d’utiliser la rétro-propagation du gradient durant la phase d’apprentissage. De manière automatique, nous pouvons donc configurer le tissu de manière à implémenter l’ensemble de toutes les architectures possibles (un nombre exponentiel) et, plus généralement, des ensembles (combinaisons) de ces modèles. La complexité de calcul et de taille mémoire du tissu évoluent de manière linéaire alors qu’il permet d’exploiter un nombre exponentiel d’architectures en parallèle, en partageant les paramètres entre architectures. Nous présentons des résultats à l’état de l’art pour la classification d’images sur le jeu de données MNIST et CIFAR10, et pour la segmentation sémantique sur le jeu de données Part Labels
In this dissertation, we propose methods and data driven machine learning solutions which address and benefit from the recent overwhelming growth of digital media content.First, we consider the problem of improving the efficiency of image retrieval. We propose a coordinated local metric learning (CLML) approach which learns local Mahalanobis metrics, and integrates them in a global representation where the l2 distance can be used. This allows for data visualization in a single view, and use of efficient ` 2 -based retrieval methods. Our approach can be interpreted as learning a linear projection on top of an explicit high-dimensional embedding of a kernel. This interpretation allows for the use of existing frameworks for Mahalanobis metric learning for learning local metrics in a coordinated manner. Our experiments show that CLML improves over previous global and local metric learning approaches for the task of face retrieval.Second, we present an approach to leverage the success of CNN models forvisible spectrum face recognition to improve heterogeneous face recognition, e.g., recognition of near-infrared images from visible spectrum training images. We explore different metric learning strategies over features from the intermediate layers of the networks, to reduce the discrepancies between the different modalities. In our experiments we found that the depth of the optimal features for a given modality, is positively correlated with the domain shift between the source domain (CNN training data) and the target domain. Experimental results show the that we can use CNNs trained on visible spectrum images to obtain results that improve over the state-of-the art for heterogeneous face recognition with near-infrared images and sketches.Third, we present convolutional neural fabrics for exploring the discrete andexponentially large CNN architecture space in an efficient and systematic manner. Instead of aiming to select a single optimal architecture, we propose a “fabric” that embeds an exponentially large number of architectures. The fabric consists of a 3D trellis that connects response maps at different layers, scales, and channels with a sparse homogeneous local connectivity pattern. The only hyperparameters of the fabric (the number of channels and layers) are not critical for performance. The acyclic nature of the fabric allows us to use backpropagation for learning. Learning can thus efficiently configure the fabric to implement each one of exponentially many architectures and, more generally, ensembles of all of them. While scaling linearly in terms of computation and memory requirements, the fabric leverages exponentially many chain-structured architectures in parallel by massively sharing weights between them. We present benchmark results competitive with the state of the art for image classification on MNIST and CIFAR10, and for semantic segmentation on the Part Labels dataset
APA, Harvard, Vancouver, ISO, and other styles
5

Chan, wai tim Stefen. "Apprentissage supervisé d’une représentation multi-couches à base de dictionnaires pour la classification d’images et de vidéos." Thesis, Université Grenoble Alpes (ComUE), 2016. http://www.theses.fr/2016GREAT089/document.

Full text
Abstract:
Ces dernières années, de nombreux travaux ont été publiés sur l'encodage parcimonieux et l'apprentissage de dictionnaires. Leur utilisation s'est initialement développée dans des applications de reconstruction et de restauration d'images. Plus récemment, des recherches ont été réalisées sur l'utilisation des dictionnaires pour des tâches de classification en raison de la capacité de ces méthodes à chercher des motifs sous-jacents dans les images et de bons résultats ont été obtenus dans certaines conditions : objet d'intérêt centré, de même taille, même point de vue. Cependant, hors de ce cadre restrictif, les résultats sont plus mitigés. Dans cette thèse, nous nous intéressons à la recherche de dictionnaires adaptés à la classification. Les méthodes d'apprentissage classiquement utilisées pour les dictionnaires s'appuient sur des algorithmes d'apprentissage non supervisé. Nous allons étudier ici un moyen d'effectuer l'apprentissage de dictionnaires de manière supervisée. Dans l'objectif de pousser encore plus loin le caractère discriminant des codes obtenus par les dictionnaires proposés, nous introduisons également une architecture multicouche de dictionnaires. L'architecture proposée s'appuie sur la description locale d'une image en entrée et sa transformation grâce à une succession d'encodage et de traitements, et fournit en sortie un ensemble de descripteurs adaptés à la classification. La méthode d'apprentissage que nous avons développé est basée sur l'algorithme de rétro-propagation du gradient permettant un apprentissage coordonné des différents dictionnaires et une optimisation uniquement par rapport à un coût de classification. L’architecture proposée a été testée sur les bases de données d’images MNIST, CIFAR-10 et STL-10 avec de bons résultats par rapport aux autres méthodes basées sur l’utilisation de dictionnaires. La structure proposée peut être étendue à l’analyse de vidéos
In the recent years, numerous works have been published on dictionary learning and sparse coding. They were initially used in image reconstruction and image restoration tasks. Recently, researches were interested in the use of dictionaries for classification tasks because of their capability to represent underlying patterns in images. Good results have been obtained in specific conditions: centered objects of interest, homogeneous sizes and points of view.However, without these constraints, the performances are dropping.In this thesis, we are interested in finding good dictionaries for classification.The learning methods classically used for dictionaries rely on unsupervised learning. Here, we are going to study how to perform supervised dictionary learning.In order to push the performances further, we introduce a multilayer architecture for dictionaries. The proposed architecture is based on the local description of an input image and its transformation thanks to a succession of encoding and processing steps. It outputs a vector of features effective for classification.The learning method we developed is based on the backpropagation algorithm which allows a joint learning of the different dictionaries and an optimization solely with respect to the classification cost.The proposed architecture has been tested on MNIST, CIFAR-10 and STL-10 datasets with good results compared to other dicitonary-based methods. The proposed architecture can be extended to video analysis
APA, Harvard, Vancouver, ISO, and other styles
6

Nguyen, Thanh Tuan. "Représentations efficaces des textures dynamiques." Electronic Thesis or Diss., Toulon, 2020. https://bu.univ-tln.fr/files/userfiles/file/intranet/travuniv/theses/sciences/2020/2020_Nguyen_ThanhTuan.pdf.

Full text
Abstract:
La représentation des textures dynamiques (TD), considérée comme une séquence de textures en mouvement, est un défi en analyse des vidéos dans des applications diverses de la vision par ordinateur. Cela est en partie causé par la désorientation des mouvements, les impacts négatifs des problèmes bien connus dans la capture des caractéristiques turbulentes: bruit, changements d'environnement, illumination, transformations de similarité, mise en échelles, etc. Dans le cadre de cette thèse, nous introduisons des solutions significatives afin de traiter les problèmes ci-dessus. Par conséquent, trois approches principales suivantes sont proposées pour le codage efficace des TDs : i) à partir de trajectoires denses extraites d'une vidéo donnée; ii) basé sur des réponses robustes extraites par des modèles de moment; iii) basé sur des résultats filtrés qui sont calculés par des variantes de noyaux de filtrage gaussien. En parallèle, nous proposons également plusieurs opérateurs discriminants pour capturer les caractéristiques spatio-temporelles des codages de TD ci-dessus. Pour une représentation TD basée sur des trajectoires denses, nous extrayons d'abord des trajectoires denses à partir d'une vidéo donnée. Les points de mouvement le long des trajectoires sont ensuite codés par notre opérateur xLVP, une extension des modèles vectoriels locaux (LVP) dans un contexte de codage complémentaire, afin de capturer des caractéristiques directionnelles basées sur une trajectoire dense pour la représentation efficace de TD. Pour la description TD basée sur des modèles de moment, motivée par un modèle d'images de moment, nous proposons un nouveau modèle de volumes de moment basé sur des informations statistiques des régions de support sphériques centrées sur un voxel. Deux de ces modèles sont ensuite pris en compte dans l'analyse vidéo pour mettre en évidence des images/volumes de moment. Afin d'encoder les images basées sur le moment, nous nous adressons à l'opérateur CLSP, une variante des modèles binaires locaux terminés (CLBP). De plus, notre opérateur xLDP, une extension des modèles de dérivés locaux (LDP) dans un contexte de codage complémentaire, est introduit pour capturer les caractéristiques spatio-temporelles basés sur les volumes des moments. Pour la représentation DT basée sur les filtrages Gaussiens, nous étudierons de nombreux types de filtrages dans l'étape de prétraitement d'une vidéo pour mettre en évidence des caractéristiques robustes. Après cette étape, les sorties sont codées par des variantes de LBP pour construire les descripteurs de TD. Plus concrètement, nous exploitons les noyaux gaussiens et des variantes de gradients gaussiens d'ordre élevé pour le filtrage. En particulier, nous introduisons un nouveau noyau de filtrage (DoDG) en tenant compte de la différence des gradients gaussiens, qui permet de mettre en évidence des composants robustes filtrés par DoDG pour construire des descripteurs efficaces en maintenant une petite dimensionalité. Parallèlement aux filtrages gaussiens, certains novels opérateurs sont introduits pour répondre à différents contextes du codage TD local: CAIP, une adaptation de CLBP pour résoudre le problème proche de zéro causé par des caractéristiques bipolaires; LRP, basé sur un concept de cube carré de voisins locaux; CHILOP, une formulation généralisée de CLBP. Les résultats de reconnaissance TD ont validé que nos propositions fonctionnent de manière significative par rapport à l'état de l'art. Certaines d'entre elles ont des performances très proches des approches d'apprentissage profond. De plus, nos descripteurs qui ont une dimensionalité très petite par rapport à celle des méthodes d'apprentissage profond sont appréciées pour les applications mobiles
Representation of dynamic textures (DTs), well-known as a sequence of moving textures, is a challenge in video analysis for various computer vision applications. It is partly due to disorientation of motions, the negative impacts of the well-known issues on capturing turbulent features: noise, changes of environment, illumination, similarity transformations, etc. In this work, we introduce significant solutions in order to deal with above problems. Accordingly, three streams of those are proposed for encoding DTs: i) based on dense trajectories extracted from a given video; ii) based on robust responses extracted by moment models; iii) based on filtered outcomes which are computed by variants of Gaussian-filtering kernels. In parallel, we also propose several discriminative descriptors to capture spatio-temporal features for above DT encodings. For DT representation based on dense trajectories, we firstly extract dense trajectories from a given video. Motion points along the paths of dense trajectories are then encoded by our xLVP operator, an important extension of Local Vector Patterns (LVP) in a completed encoding context, in order to capture directional dense-trajectory-based features for DT representation.For DT description based on moment models, motivated by the moment-image model, we propose a novel model of moment volumes based on statistical information of spherical supporting regions centered at a voxel. Two these models are then taken into account video analysis to point out moment-based images/volumes. In order to encode the moment-based images, we address CLSP operator, a variant of completed local binary patterns (CLBP). In the meanwhile, our xLDP, an important extension of Local Derivative Patterns (LDP) in a completed encoding context, is introduced to capture spatio-temporal features of the moment-volume-based outcomes. For DT representation based on the Gaussian-based filterings, we will investigate many kinds of filterings as pre-processing analysis of a video to point out its filtered outcomes. After that, these outputs are encoded by discriminative operators to structure DT descriptors correspondingly. More concretely, we exploit the Gaussian-based kernel and variants of high-order Gaussian gradients for the filtering analysis. Particularly, we introduce a novel filtering kernel (DoDG) in consideration of the difference of Gaussian gradients, which allows to point out robust DoDG-filtered components to construct prominent DoDG-based descriptors in small dimension. In parallel to the Gaussian-based filterings, some novel operators will be introduced to meet different contexts of the local DT encoding: CAIP, an adaptation of CLBP to fix the close-to-zero problem caused by separately bipolar features; LRP, based on a concept of a square cube of local neighbors sampled at a center voxel; CHILOP, a generalized formulation of CLBP to adequately investigate local relationships of hierarchical supporting regions. Experiments for DT recognition have validated that our proposals significantly perform in comparison with state of the art. Some of which have performance being very close to deep-learning approaches, expected as one of appreciated solutions for mobile applications due to their simplicity in computation and their DT descriptors in a small number of bins
APA, Harvard, Vancouver, ISO, and other styles
7

Ullah, Muhammad Muneeb. "Représentations statistiques supervisées pour la reconnaissance d'actions humaines dans les vidéos." Rennes 1, 2012. https://tel.archives-ouvertes.fr/tel-01063349.

Full text
Abstract:
This thesis addresses the problem of human action recognition in realistic video data, such as movies and online videos. Automatic and accurate recognition of human actions in video is a fascinating capability. The potential applications range from surveillance and robotics to medical diagnosis, content-based video retrieval, and intelligent human-computer interfaces. The task is highly challenging due to the large variations in person appearances, dynamic backgrounds, view-point changes, lighting conditions, action styles and other factors. . . Statistical video representations based on local space-time features have been recently shown successful for action recognition in realistic scenarios. Their success can be attributed to the mild assumptions about the data and robustness to several variations in the video. Such representations, however, often encode videos by disordered collection of low-level primitives. This thesis extends current methods by developing more discriminative features and integrating additional supervision into bag-of-features based video representations, aiming to improve action recognition in unconstrained and challenging video data
Dans cette thèse, nous nous occupons du problème de la reconnaissance d'actions humaines dans les données vidéo réalistes, telles que des films et des vidéos en ligne. La reconnaissance automatique et exacte des actions humaines dans une vidéo est une capacité fascinante. Les applications potentielles vont de la surveillance et de la robotique au diagnostic médical, à la recherche d'images par le contenu et les interfaces homme-ordinateur intelligents. Cette tâche constitue un grand défi à cause des variations importantes dans les apparences des personnes, les fonds dynamiques, les changements d'angle de prise de vue, les conditions de luminosité, les styles d'actions et d'autres facteurs encore. Les représentations de vidéo statistiques basées sur les caractéristiques spatio-temporelles locales se sont dernièrement montrées très efficaces pour la reconnaissance dans les scénarios réalistes. Leur succès peut être attribué à des hypothèses favorables, relatives aux données et à la solidité par rapport à plusieurs variations dans la vidéo. De telles représentations, encodent néanmoins souvent des vidéos par un ensemble désordonné de primitifs de bas niveau. La thèse élargit les méthodes actuelles en développant des caractéristiques plus distinctives et en intégrant un contrôle additionnel dans les sacs de caractéristiques basés sur les représentations vidéo, visant à améliorer la reconnaissance d'actions dans des données vidéos sans contrainte et particulièrement difficiles
APA, Harvard, Vancouver, ISO, and other styles
8

Roman, Mathilde. "Représentations et mises en scène de soi dans les vidéos d'artistes." Paris 1, 2005. http://www.theses.fr/2005PA010694.

Full text
Abstract:
Consacrée à des œuvres artistiques utilisant le médium vidéo, cette thèse aborde des problématiques liées à la représentation de soi. L'ensemble du corpus, qui privilégie des pièces de 1990 à 2005 appartenant à l'art occidental, est constitué de vidéos qui mettent en scène l'image de soi et questionnent ses enjeux et ses impasses. Les œuvres ont développé des regards critiques sur les usages contemporains de l'image de soi et ont dégagé les enjeux qui relèvent de sa production, définissant ainsi les responsabilités qui incombent à l'individu, dans sa manière de se représenter, vis-à-vis de sa participation au monde. Les rapports à l'image de soi se sont révélés être synecdotiques des relations de l'individu aux images. Nous avons ainsi croisé des réflexions sociologiques, psychanalytiques, philosophiques, car ces vidéos reflètent un visage de la contemporanéité tout en s'inscrivant dans une histoire des idées préoccupée par notre existence en image. Notre finalité a été de servir les œuvres en les confrontant entre elles, en précisant les réflexions qui les accompagnent et en dégageant les regards avisés qu'elles mettent en scène, et nous invitent à partager.
APA, Harvard, Vancouver, ISO, and other styles
9

Safadi, Bahjat. "Indexation sémantique des images et des vidéos par apprentissage actif." Phd thesis, Université de Grenoble, 2012. http://tel.archives-ouvertes.fr/tel-00766904.

Full text
Abstract:
Le cadre général de cette thèse est l'indexation sémantique et la recherche d'informations, appliquée à des documents multimédias. Plus précisément, nous nous intéressons à l'indexation sémantique des concepts dans des images et vidéos par les approches d'apprentissage actif, que nous utilisons pour construire des corpus annotés. Tout au long de cette thèse, nous avons montré que les principales difficultés de cette tâche sont souvent liées, en général, à l'fossé sémantique. En outre, elles sont liées au problème de classe-déséquilibre dans les ensembles de données à grande échelle, où les concepts sont pour la plupart rares. Pour l'annotation de corpus, l'objectif principal de l'utilisation de l'apprentissage actif est d'augmenter la performance du système en utilisant que peu d'échantillons annotés que possible, ainsi minimisant les coûts de l'annotations des données (par exemple argent et temps). Dans cette thèse, nous avons contribué à plusieurs niveaux de l'indexation multimédia et nous avons proposé trois approches qui succèdent des systèmes de l'état de l'art: i) l'approche multi-apprenant (ML) qui surmonte le problème de classe-déséquilibre dans les grandes bases de données, ii) une méthode de reclassement qui améliore l'indexation vidéo, iii) nous avons évalué la normalisation en loi de puissance et de l'APC et a montré son efficacité dans l'indexation multimédia. En outre, nous avons proposé l'approche ALML qui combine le multi-apprenant avec l'apprentissage actif, et nous avons également proposé une méthode incrémentale qui accélère l'approche proposé (ALML). En outre, nous avons proposé l'approche de nettoyage actif, qui aborde la qualité des annotations. Les méthodes proposées ont été tous validées par plusieurs expériences, qui ont été menées et évaluées sur des collections à grande échelle de l'indice de benchmark internationale bien connue, appelés TRECVID. Enfin, nous avons présenté notre système d'annotation dans le monde réel basé sur l'apprentissage actif, qui a été utilisé pour mener les annotations de l'ensemble du développement de la campagne TRECVID en 2011, et nous avons présenté notre participation à la tâche d'indexation sémantique de cette campagne, dans laquelle nous nous sommes classés à la 3ème place sur 19 participants.
APA, Harvard, Vancouver, ISO, and other styles
10

Luc, Pauline. "Apprentissage autosupervisé de modèles prédictifs de segmentation à partir de vidéos." Thesis, Université Grenoble Alpes (ComUE), 2019. http://www.theses.fr/2019GREAM024/document.

Full text
Abstract:
Les modèles prédictifs ont le potentiel de permettre le transfert des succès récents en apprentissage par renforcement à de nombreuses tâches du monde réel, en diminuant le nombre d’interactions nécessaires avec l’environnement.La tâche de prédiction vidéo a attiré un intérêt croissant de la part de la communauté ces dernières années, en tant que cas particulier d’apprentissage prédictif dont les applications en robotique et dans les systèmes de navigations sont vastes.Tandis que les trames RGB sont faciles à obtenir et contiennent beaucoup d’information, elles sont extrêmement difficile à prédire, et ne peuvent être interprétées directement par des applications en aval.C’est pourquoi nous introduisons ici une tâche nouvelle, consistant à prédire la segmentation sémantique ou d’instance de trames futures.Les espaces de descripteurs que nous considérons sont mieux adaptés à la prédiction récursive, et nous permettent de développer des modèles de segmentation prédictifs performants jusqu’à une demi-seconde dans le futur.Les prédictions sont interprétables par des applications en aval et demeurent riches en information, détaillées spatialement et faciles à obtenir, en s’appuyant sur des méthodes état de l’art de segmentation.Dans cette thèse, nous nous attachons d’abord à proposer pour la tâche de segmentation sémantique, une approche discriminative se basant sur un entrainement par réseaux antagonistes.Ensuite, nous introduisons la tâche nouvelle de prédiction de segmentation sémantique future, pour laquelle nous développons un modèle convolutionnel autoregressif.Enfin, nous étendons notre méthode à la tâche plus difficile de prédiction de segmentation d’instance future, permettant de distinguer entre différents objets.Du fait du nombre de classes variant selon les images, nous proposons un modèle prédictif dans l’espace des descripteurs d’image convolutionnels haut niveau du réseau de segmentation d’instance Mask R-CNN.Cela nous permet de produire des segmentations visuellement plaisantes en haute résolution, pour des scènes complexes comportant un grand nombre d’objets, et avec une performance satisfaisante jusqu’à une demi seconde dans le futur
Predictive models of the environment hold promise for allowing the transfer of recent reinforcement learning successes to many real-world contexts, by decreasing the number of interactions needed with the real world.Video prediction has been studied in recent years as a particular case of such predictive models, with broad applications in robotics and navigation systems.While RGB frames are easy to acquire and hold a lot of information, they are extremely challenging to predict, and cannot be directly interpreted by downstream applications.Here we introduce the novel tasks of predicting semantic and instance segmentation of future frames.The abstract feature spaces we consider are better suited for recursive prediction and allow us to develop models which convincingly predict segmentations up to half a second into the future.Predictions are more easily interpretable by downstream algorithms and remain rich, spatially detailed and easy to obtain, relying on state-of-the-art segmentation methods.We first focus on the task of semantic segmentation, for which we propose a discriminative approach based on adversarial training.Then, we introduce the novel task of predicting future semantic segmentation, and develop an autoregressive convolutional neural network to address it.Finally, we extend our method to the more challenging problem of predicting future instance segmentation, which additionally segments out individual objects.To deal with a varying number of output labels per image, we develop a predictive model in the space of high-level convolutional image features of the Mask R-CNN instance segmentation model.We are able to produce visually pleasing segmentations at a high resolution for complex scenes involving a large number of instances, and with convincing accuracy up to half a second ahead
APA, Harvard, Vancouver, ISO, and other styles
11

Mensch, Arthur. "Apprentissage de représentations en imagerie fonctionnelle." Thesis, Université Paris-Saclay (ComUE), 2018. http://www.theses.fr/2018SACLS300/document.

Full text
Abstract:
Grâce aux avancées technologiques dans le domaine de l'imagerie fonctionnelle cérébrale, les neurosciences cognitives accumulent une grande quantité de cartes spatiales décrivant de manière quantitative l'activité neuronale suscitée dans le cerveau humain en réponse à des tâches ou des stimuli spécifiques, ou de manière spontanée. Dans cette thèse, nous nous intéressons particulièrement aux données issues de l'imagerie par résonance magnétique fonctionnelle (IRMf), que nous étudions dans un cadre d'apprentissage statistique. Notre objectif est d'apprendre des modèles d'activité cérébrale à partir des données. Nous proposons différentes nouvelles manières de profiter de la grande quantité de données IRMf disponible. Tout d'abord, nous considérons les données d'IRMf de repos, que nous traitons grâce à des méthodes de factorisation de matrices. Nous présentons de nouvelles méthodes pour calculer en un temps raisonnable une factorisation parcimonieuse de matrices constituées de centaines d'enregistrements d'IRMf. Cela nous permet d'extraire des réseaux fonctionnels à partir de données d'une envergure inédite. Notre méthode principale introduit une réduction aléatoire de la dimension des données dans une boucle d'apprentissage en ligne. L'algorithme proposé converge plus de 10 fois plus vite que les meilleures méthodes existantes, pour différentes configurations et sur plusieurs jeux de données. Nous effectuons une vaste validation expérimentale de notre approche de sous-échantillonnage aléatoire. Nous proposons une étude théorique des propriétés de convergence de notre algorithme. Dans un second temps, nous nous intéressons aux données d'IRMf d'activation. Nous démontrons comment agréger différents études acquises suivant des protocoles distincts afin d'apprendre des modèles joints de décodage plus justes et interprétables. Notre modèle multi-études apprend à réduire la dimension des images cérébrales en entrée en même temps qu'il apprend à les classifier, pour chacune des études, à partir de leurs représentations réduites. Cela suscite un transfert d'information entre les études. En conséquence, notre modèle multi-étude est plus performant que les modèles de décodage appris sur chaque étude séparément. Notre approche identifie une représentation universellement pertinente de l'activité cérébrale, supportée par un petit nombre de réseaux optimisés pour l'identification de tâches
Thanks to the advent of functional brain-imaging technologies, cognitive neuroscience is accumulating maps of neural activity responses to specific tasks or stimuli, or of spontaneous activity. In this work, we consider data from functional Magnetic Resonance Imaging (fMRI), that we study in a machine learning setting: we learn a model of brain activity that should generalize on unseen data. After reviewing the standard fMRI data analysis techniques, we propose new methods and models to benefit from the recently released large fMRI data repositories. Our goal is to learn richer representations of brain activity. We first focus on unsupervised analysis of terabyte-scale fMRI data acquired on subjects at rest (resting-state fMRI). We perform this analysis using matrix factorization. We present new methods for running sparse matrix factorization/dictionary learning on hundreds of fMRI records in reasonable time. Our leading approach relies on introducing randomness in stochastic optimization loops and provides speed-up of an order of magnitude on a variety of settings and datasets. We provide an extended empirical validation of our stochastic subsampling approach, for datasets from fMRI, hyperspectral imaging and collaborative filtering. We derive convergence properties for our algorithm, in a theoretical analysis that reaches beyond the matrix factorization problem. We then turn to work with fMRI data acquired on subject undergoing behavioral protocols (task fMRI). We investigate how to aggregate data from many source studies, acquired with many different protocols, in order to learn more accurate and interpretable decoding models, that predicts stimuli or tasks from brain maps. Our multi-study shared-layer model learns to reduce the dimensionality of input brain images, simultaneously to learning to decode these images from their reduced representation. This fosters transfer learning in between studies, as we learn the undocumented cognitive common aspects that the many fMRI studies share. As a consequence, our multi-study model performs better than single-study decoding. Our approach identifies universally relevant representation of brain activity, supported by a few task-optimized networks learned during model fitting. Finally, on a related topic, we show how to use dynamic programming within end-to-end trained deep networks, with applications in natural language processing
APA, Harvard, Vancouver, ISO, and other styles
12

Risser-Maroix, Olivier. "Similarité visuelle et apprentissage de représentations." Electronic Thesis or Diss., Université Paris Cité, 2022. http://www.theses.fr/2022UNIP7327.

Full text
Abstract:
L’objectif de cette thèse CIFRE est de développer un moteur de recherche par image, basé sur la vision par ordinateur, afin d’assister les officiers des douanes. En effet, nous constatons, paradoxalement, une augmentation des menaces sécuritaires (terrorisme, trafic, etc.) couplée d’une diminution des effectifs en Douane. Les images de cargos acquises par des scanners à rayons X permettent déjà l’inspection d’un chargement sans nécessiter l’ouverture et la fouille complète d’un chargement contrôlé. En proposant automatiquement des images similaires, un tel moteur de recherche permettrait d’aider le douanier dans sa prise de décision face à des signatures visuelles de produits peu fréquents ou suspects. Grâce à l’essor des techniques modernes en intelligence artificielle (IA), notre époque subit de grands changements : l’IA transforme tous les secteurs de l’économie. Certains voient dans cet avènement de la "robotisation" la déshumanisation de la force de travail, voire son remplacement. Cependant, réduire l’utilisation de l’IA à la simple recherche de gains de productivité serait réducteur. En réalité, l’IA pourrait permettre d’augmenter la capacité de travail des humains et non à les concurrencer en vue de les remplacer. C’est dans ce contexte, la naissance de l’Intelligence Augmentée, que s’inscrit cette thèse. Ce manuscrit consacré à la question de la similarité visuelle se décompose en deux parties. Deux cas pratiques où la collaboration entre l’Homme et l’IA est bénéfique sont ainsi proposés. Dans la première partie, le problème de l’apprentissage de représentations pour la recherche d’images similaires fait encore l’objet d’investigations approfondies. Après avoir implémenté un premier système semblable à ceux proposés par l’état de l’art, l’une des principales limitations est pointée du doigt : le biais sémantique. En effet, les principales méthodes contemporaines utilisent des jeux de données d’images couplées de labels sémantiques uniquement. Les travaux de la littérature considèrent que deux images sont similaires si elles partagent le même label. Cette vision de la notion de similarité, pourtant fondamentale en IA, est réductrice. Elle sera donc remise en question à la lumière des travaux en psychologie cognitive afin de proposer une amélioration : la prise en compte de la similarité visuelle. Cette nouvelle définition permet une meilleure synergie entre le douanier et la machine. Ces travaux font l’objet de publications scientifiques et d’un brevet. Dans la seconde partie, après avoir identifié les composants clefs permettant d’améliorer les performances du système précédemment proposé, une approche mêlant recherche empirique et théorique est proposée. Ce second cas, l’intelligence augmentée est inspirée des développements récents en mathématiques et physique. D’abord appliquée à la com- préhension d’un hyperparamètre important (la température), puis à une tâche plus large (la classification), la méthode proposée permet de fournir une intuition sur l’importance et le rôle de facteurs corrélés à la variable étudiée (ex. hyperparamètre, score, etc.). La chaîne de traitement ainsi mise en place a démontré son efficacité en fournissant une solution hautement explicable et en adéquation avec des décennies de recherches en apprentissage automatique. Ces découvertes permettront l’amélioration des solutions précédemment développées
The objective of this CIFRE thesis is to develop an image search engine, based on computer vision, to assist customs officers. Indeed, we observe, paradoxically, an increase in security threats (terrorism, trafficking, etc.) coupled with a decrease in the number of customs officers. The images of cargoes acquired by X-ray scanners already allow the inspection of a load without requiring the opening and complete search of a controlled load. By automatically proposing similar images, such a search engine would help the customs officer in his decision making when faced with infrequent or suspicious visual signatures of products. Thanks to the development of modern artificial intelligence (AI) techniques, our era is undergoing great changes: AI is transforming all sectors of the economy. Some see this advent of "robotization" as the dehumanization of the workforce, or even its replacement. However, reducing the use of AI to the simple search for productivity gains would be reductive. In reality, AI could allow to increase the work capacity of humans and not to compete with them in order to replace them. It is in this context, the birth of Augmented Intelligence, that this thesis takes place. This manuscript devoted to the question of visual similarity is divided into two parts. Two practical cases where the collaboration between Man and AI is beneficial are proposed. In the first part, the problem of learning representations for the retrieval of similar images is still under investigation. After implementing a first system similar to those proposed by the state of the art, one of the main limitations is pointed out: the semantic bias. Indeed, the main contemporary methods use image datasets coupled with semantic labels only. The literature considers that two images are similar if they share the same label. This vision of the notion of similarity, however fundamental in AI, is reductive. It will therefore be questioned in the light of work in cognitive psychology in order to propose an improvement: the taking into account of visual similarity. This new definition allows a better synergy between the customs officer and the machine. This work is the subject of scientific publications and a patent. In the second part, after having identified the key components allowing to improve the performances of thepreviously proposed system, an approach mixing empirical and theoretical research is proposed. This secondcase, augmented intelligence, is inspired by recent developments in mathematics and physics. First applied tothe understanding of an important hyperparameter (temperature), then to a larger task (classification), theproposed method provides an intuition on the importance and role of factors correlated to the studied variable(e.g. hyperparameter, score, etc.). The processing chain thus set up has demonstrated its efficiency byproviding a highly explainable solution in line with decades of research in machine learning. These findings willallow the improvement of previously developed solutions
APA, Harvard, Vancouver, ISO, and other styles
13

Moradi, Fard Maziar. "Apprentissage de représentations de données dans un apprentissage non-supervisé." Thesis, Université Grenoble Alpes, 2020. http://www.theses.fr/2020GRALM053.

Full text
Abstract:
En raison du grand impact de l’apprentissage profond sur divers domaines de l’apprentissage automatique, leurs capacités à améliorer les approches de clustering ont récemment été étudiées. Dans un premier temps, des approches d’apprentissage profond (principalement des autoencodeurs) ont été utilisées pour réduire la dimensionnalité de l’espace d’origine et pour supprimer les éventuels bruits (également pour apprendre de nouvelles représentations de données). De telles approches de clustering qui utilisent des approches d’apprentissage en profondeur sont appelées deep clustering. Cette thèse se concentre sur le développement de modèles de deep clustering qui peuvent être utilisés pour différents types de données (par exemple, des images, du texte). Tout d’abord, nous proposons un algorithme DKM (Deep k-means) dans lequel l’apprentissage des représentations de données (via un autoencodeur profond) et des représentants de cluster (via k-means) est effectué de manière conjointe. Les résultats de notre approche DKM indiquent que ce modèle est capable de surpasser des algorithmes similaires en Deep Clustering. En effet, notre cadre proposé est capable de propager de manière lisse l’erreur de la fonction de coût à travers toutes les variables apprenables.De plus, nous proposons deux modèles nommés SD2C et PCD2C qui sont capables d’intégrer respectivement des mots d’amorçage et des contraintes par paires dans des approches de Deep Clustering de bout en bout. En utilisant de telles approches, les utilisateurs peuvent observer le reflet de leurs besoins en clustering. Enfin, les résultats obtenus à partir de ces modèles indiquent leur capacité à obtenir des résultats plus adaptés
Due to the great impact of deep learning on variety fields of machine learning, recently their abilities to improve clustering approaches have been investi- gated. At first, deep learning approaches (mostly Autoencoders) have been used to reduce the dimensionality of the original space and to remove possible noises (also to learn new data representations). Such clustering approaches that utilize deep learning approaches are called Deep Clustering. This thesis focuses on developing Deep Clustering models which can be used for different types of data (e.g., images, text). First we propose a Deep k-means (DKM) algorithm where learning data representations (through a deep Autoencoder) and cluster representatives (through the k-means) are performed in a joint way. The results of our DKM approach indicate that this framework is able to outperform similar algorithms in Deep Clustering. Indeed, our proposed framework is able to truly and smoothly backpropagate the loss function error through all learnable variables.Moreover, we propose two frameworks named SD2C and PCD2C which are able to integrate respectively seed words and pairwise constraints into end-to-end Deep Clustering frameworks. In fact, by utilizing such frameworks, the users can observe the reflection of their needs in clustering. Finally, the results obtained from these frameworks indicate their ability to obtain more tailored results
APA, Harvard, Vancouver, ISO, and other styles
14

Phan, Thi Hai Hong. "Reconnaissance d'actions humaines dans des vidéos avec l'apprentissage automatique." Thesis, Cergy-Pontoise, 2019. http://www.theses.fr/2019CERG1038.

Full text
Abstract:
Ces dernières années, la reconnaissance d’action humaine (HAR) a attiré l’attention de la recherche grâce à ses diverses applications telles que les systèmes de surveillance intelligents, l’indexation vidéo, l’analyse des activités humaines, les interactions homme-machine, et ainsi de suite. Les problèmes typiques que les chercheurs envisagent sont la complexité des mouvements humains, les variations spatio-temporelles, l'encombrement, l'occlusion et le changement des conditions d'éclairage. Cette thèse porte sur la reconnaissance automatique des actions humaines en cours dans une vidéo. Nous abordons ce problème de recherche en utilisant à la fois des approches d'apprentissage traditionnel peu profond et d'apprentissage profond.Premièrement, nous avons commencé les travaux de recherche avec des méthodes d’apprentissage traditionnelles peu profondes, fondées sur des caractéristiques créées manuellement, en introduisant un nouveau fonctionnalité appelée descripteur MOMP (Motion of Oriented Magnitudes Patterns). Nous avons ensuite intégré ce descripteur discriminant aux techniques de représentation simples mais puissantes telles que le sac de mots visuels, le vecteur de descripteurs agrégés localement (VLAD) et le vecteur de Fisher pour mieux représenter les actions. En suite l'PCA (Principal Component Analysis) et la sélection des caractéristiques (la dépendance statistique, l'information mutuelle) sont appliquées pour rechercher le meilleur sous-ensemble des caractéristiques afin d'améliorer les performances et de réduire les coûts de calcul. La méthode proposée a permis d'obtenir les résultats d'état de l'art sur plusieurs bases de données communes.Les approches d'apprentissage profond récentes nécessitent des calculs intensifs et une utilisation importante de la mémoire. Ils sont donc difficiles à utiliser et à déployer sur des systèmes aux ressources limitées. Dans la deuxième partie de cette thèse, nous présentons un nouvel algorithme efficace pour compresser les modèles de réseau de neurones convolutionnels afin de réduire à la fois le coût de calcul et l’empreinte mémoire au moment de l’exécution. Nous mesurons la redondance des paramètres en fonction de leurs relations à l'aide des critères basés sur la théorie de l'information, puis nous éliminons les moins importants. La méthode proposée réduit considérablement la taille des modèles de différents réseaux tels qu'AlexNet, ResNet jusqu'à 70% sans perte de performance pour la tâche de classification des images à grande échelle.L'approche traditionnelle avec le descripteur proposé a permis d'obtenir d'excellentes performances pour la reconnaissance de l'action humaine mais seulement sur de petits bases de données. Afin d'améliorer les performances de la reconnaissance sur les bases de données de grande échelle, dans la dernière partie de cette thèse, nous exploitons des techniques d'apprentissage profond pour classifier les actions. Nous introduisons les concepts de l'image MOMP en tant que couche d'entrée de CNN et incorporons l'image MOMP dans des réseaux de neurones profonds. Nous appliquons ensuite notre algorithme de compression réseau pour accélérer et améliorer les performances du système. La méthode proposée réduit la taille du modèle, diminue le sur-apprentissage et augmente ainsi la performance globale de CNN sur les bases de données d'action à grande échelle.Tout au long de la thèse, nous avons montré que nos algorithmes obtenaient de bonnes performances sur bases de données d'action complexes (Weizmann, KTH, UCF Sports, UCF-101 et HMDB51) avec des ressources limitées
In recent years, human action recognition (HAR) has attracted the research attention thanks to its various applications such as intelligent surveillance systems, video indexing, human activities analysis, human-computer interactions and so on. The typical issues that the researchers are envisaging can be listed as the complexity of human motions, the spatial and temporal variations, cluttering, occlusion and change of lighting condition. This thesis focuses on automatic recognizing of the ongoing human actions in a given video. We address this research problem by using both shallow learning and deep learning approaches.First, we began the research work with traditional shallow learning approaches based on hand-scrafted features by introducing a novel feature named Motion of Oriented Magnitudes Patterns (MOMP) descriptor. We then incorporated this discriminative descriptor into simple yet powerful representation techniques such as Bag of Visual Words, Vector of locally aggregated descriptors (VLAD) and Fisher Vector to better represent actions. Also, PCA (Principal Component Analysis) and feature selection (statistical dependency, mutual information) are applied to find out the best subset of features in order to improve the performance and decrease the computational expense. The proposed method obtained the state-of-the-art results on several common benchmarks.Recent deep learning approaches require an intensive computations and large memory usage. They are therefore difficult to be used and deployed on the systems with limited resources. In the second part of this thesis, we present a novel efficient algorithm to compress Convolutional Neural Network models in order to decrease both the computational cost and the run-time memory footprint. We measure the redundancy of parameters based on their relationship using the information theory based criteria, and we then prune the less important ones. The proposed method significantly reduces the model sizes of different networks such as AlexNet, ResNet up to 70% without performance loss on the large-scale image classification task.Traditional approach with the proposed descriptor achieved the great performance for human action recognition but only on small datasets. In order to improve the performance on the large-scale datasets, in the last part of this thesis, we therefore exploit deep learning techniques to classify actions. We introduce the concepts of MOMP Image as an input layer of CNNs as well as incorporate MOMP image into deep neural networks. We then apply our network compression algorithm to accelerate and improve the performance of system. The proposed method reduces the model size, decreases the over-fitting, and thus increases the overall performance of CNN on the large-scale action datasets.Throughout the thesis, we have showed that our algorithms obtain good performance in comparison to the state-of-the-art on challenging action datasets (Weizmann, KTH, UCF Sports, UCF-101 and HMDB51) with low resource required
APA, Harvard, Vancouver, ISO, and other styles
15

Bouindour, Samir. "Apprentissage profond appliqué à la détection d'événements anormaux dans les flux vidéos." Electronic Thesis or Diss., Troyes, 2019. http://www.theses.fr/2019TROY0036.

Full text
Abstract:
L'utilisation des caméras de surveillance s'est considérablement accru ces dernières années. Cette prolifération pose un problème sociétal de premier ordre, celui de l’exploitation des flux générés. Actuellement, ces données sont en majorité analysées par des opérateurs humains. Cependant, de nombreuses études remettent en cause la pertinence de cette approche. Il est chronophage et laborieux pour un opérateur de visionner des vidéos de surveillance durant de longues périodes. Compte tenu des progrès réalisés récemment dans le domaine de la vision par ordinateur, notamment par l'intermédiaire de l'apprentissage profond, une solution à ce problème réside dans le développement de systèmes intelligents capables d'épauler l'opérateur humain dans l'exploitation de ces données. Ces systèmes intelligents auront pour objectifs de modéliser les comportements normaux d'une scène surveillée et de détecter tout événement déviant, pouvant conduire à une faille de sécurité. Dans le cadre de cette thèse intitulée « Apprentissage profond appliqué à la détection d'événements anormaux dans les flux vidéos », on se propose de développer des algorithmes se basant sur l’apprentissage profond pour la détection et la localisation des événements vidéo anormaux pouvant refléter des situations à risque. Il s’agit, en fait, d’extraire des descripteurs spatiotemporels robustes et de définir des algorithmes de classification adaptés pour détecter des comportements suspects avec le minimum possible de fausses alarmes, tout en assurant un taux élevé de détection
The use of surveillance cameras has increased considerably in recent years. This proliferation poses a major societal problem, which is the exploitation of the generated video streams. Currently, most of these data are being analyzed by human operators. However, several studies question the relevance of this approach. It is time-consuming and laborious for an operator to monitor surveillance videos for long time periods. Given recent advances in computer vision, particularly through deep learning, one solution to this problem consists in the development of intelligent systems that can support the human operator in the exploitation of this data. These intelligent systems will aim to model the normal behaviours of a monitored scene and detect any deviant event that could lead to a security breach. Within the context of this thesis entitled "Deep learning applied to the detection of abnormal events in video streams", we propose to develop algorithms based on deep learning for the detection and localization of abnormal video events that may reflect dangerous situations. The purpose is to extract robust spatial and temporal descriptors and define classification algorithms adapted to detect suspicious behaviour with the minimum possible number of false alarms, while ensuring a high detection rate
APA, Harvard, Vancouver, ISO, and other styles
16

Calandre, Jordan. "Analyse non intrusive du geste sportif dans des vidéos par apprentissage automatique." Electronic Thesis or Diss., La Rochelle, 2022. http://www.theses.fr/2022LAROS040.

Full text
Abstract:
Dans cette thèse, nous nous intéressons à la caractérisation et à l’analyse fine de gestes sportifs dans des vidéos, et plus particulièrement à l’analyse non-intrusive 3D en vision mono caméra. Notre cas d’étude est le tennis de table. Nous proposons une méthode de reconstruction des positions 3D des balles en utilisant une caméra rapide (240 fps) calibrée. Pour cela, nous définissons et entraînons un réseau convolutif qui permet d’extraire des images le diamètre apparent de la balle. La connaissance du diamètre réel de la balle permet de calculer la distance caméra/balle puis de positionner cette dernière dans un repère 3D lié à la table. Ensuite, nous utilisons un modèle physique, prenant en compte l’effet Magnus, pour estimer les paramètres cinématiques de la balle à partir de ses positions 3D successives. La méthode proposée segmente les trajectoires à partir des impacts de la balle sur la table ou la raquette, ce qui permet, en utilisant un modèle physique de rebond, d’affiner les estimations des paramètres cinématiques de la balle puis de calculer la vitesse et l’angle de la raquette lors de la frappe et d’en déduire des indicateurs de performance pertinents. Deux bases de données ont été construites : la première est constituée d’acquisitions de séquences réelles de jeu et la seconde, synthétique, reproduit les conditions d'acquisition de la première et permet de valider nos méthodes, les paramètres physiques utilisés pour la générer étant connus. Enfin, nous présentons notre participation à la tâche Sport\&Vision du challenge MediaEval sur la classification d'actions humaines, par des approches basées sur l'analyse et la représentation du mouvement
In this thesis, we are interested in the characterization and fine-grained analysis of sports gestures in videos, and more particularly in non-intrusive 3D analysis using a single camera. Our case study is table tennis. We propose a method for reconstructing 3D ball positions using a high-speed calibrated camera (240fps). For this, we propose and train a convolutional network that extracts the apparent diameter of the ball from the images. The knowledge of the real diameter of the ball allows us to compute the distance between the camera and the ball, and then to position the latter in a 3D coordinate system linked to the table. Then, we use a physical model, taking into account the Magnus effect, to estimate the kinematic parameters of the ball from its successive 3D positions. The proposed method segments the trajectories from the impacts of the ball on the table or the racket. This allows, using a physical model of rebound, to refinethe estimates of the kinematic parameters of the ball. It is then possible to compute the racket's speed and orientation after the stroke and to deduce relevant performance indicators. Two databases have been built: the first one is made of real game sequence acquisitions. The second is a synthetic dataset that reproduces the acquisition conditions of the previous one. This allows us to validate our methods as the physical parameters used to generate it are known.Finally, we present our participation to the Sport\&Vision task of the MediaEval challenge on the classification of human actions, using approaches based on the analysis and representation of movement
APA, Harvard, Vancouver, ISO, and other styles
17

Tchobanov, Atanas. "Représentations et apprentissage des primitives phonologiques : ^pproche neuromimétique." Paris 10, 2002. http://www.theses.fr/2002PA100018.

Full text
Abstract:
L'idée développée ici est que les objets phonologiques : traits distinctifs, phonèmes et syllabes, sont représentés dans le cortex par des réverbérations synchrones d'ensembles de neurones. Ces ensembles se situent dans des zones du cortex spécialisées dans les processus de planification-production linguistique (Broca) et la perception-compréhension (Wernicke). Les évidences neurobiologiques et les simulations connexionnistes confirment qu'une telle synchronisation entre sites corticaux distants peut-être facilement et rapidement obtenue si le modèle respecte certaines propriétés neurobiologiques. Nous plaidons pour une phonologie neurologiquement réaliste. La pertinence cognitive est garantie par l'utilisation d'un mécanisme de codage confirmé : la synchronie temporelle. Les représentations qui en résultent sont génériques, applicables à d'autres dom̀aines linguistiques et cognitifs. .
We develop the idea that the basic phonological objects : features, phonemes and syllables are represented at the level of cortical activity by coherent neuron assemblies' reverberations. Thes assemblies of hebbian type are located at cortex areas specializing in the process of phonological planning-production (Broca) and perception-comprehension (Wernicke). Neurobiological and connectionist simulations data support the view that synchronous activity of neurons from distant areas can be rapidly obtained if the model respects some neurobiological properties. We claim that phonology should be neurologically plausible. Using a well-studied coding scheme as the temporal synchrony of neuron activity gives representations a cognitive realism. Resulting patters are generic, not specially phonological and might be reused in modeling other linguistics and cognitive phenomena. .
APA, Harvard, Vancouver, ISO, and other styles
18

Melouki, Brahim. "Apprentissage du français en Palestine : motivations et représentations." Rouen, 2011. http://www.theses.fr/2011ROUEL013.

Full text
APA, Harvard, Vancouver, ISO, and other styles
19

Tonnelier, Emeric. "Apprentissage de représentations pour les traces de mobilité." Electronic Thesis or Diss., Sorbonne université, 2019. http://www.theses.fr/2019SORUS389.

Full text
Abstract:
Le transport urbain est un enjeu crucial pour la gestion des territoires. Dans les grandes métropoles, les transports publics urbains représentent le principal moyen de déplacement de nombreux habitants. Si la caractérisation des réseaux et des usagers est historiquement abordée par l'analyse de données de questionnaires, depuis la fin des années 1990, nous voyons l'apparition de nouveaux types de données (GPS, données billétiques, etc.) qui décrivent la mobilité des individus en ville et son évolution à moyen terme. Disponibles dans de grandes quantités, échantillonnés précisément, mais contenant peu de sémantique et beaucoup de bruit. Au cours de cette thèse, nous proposons de travailler sur la modélisation des usagers et du réseau d'une part, et la détection d'anomalies d'autre part, à partir de données collectées dans un contexte de réseaux de transports urbains, en utilisant des méthodes d'apprentissage automatique. Grâce à ces méthodes adaptées à l'analyse et la mise en valeur de grandes masses de données, nous voulons traiter ces données brutes et bruitées. Nous porterons une attention particulière sur l'adaptation de ces méthodes aux problématiques particulières des données de mobilité. Nous verrons que la modélisation orientée usager d'un réseau de transports permet d'obtenir des profils fins et robustes que l'on peut agréger efficacement afin d'obtenir une valorisation plus précise et plus descriptive du réseau qu'une modélisation orientée réseau; que l'utilisation de ces profils permet de traiter des tâches complexes; que la contextualisation des modèles (spatial, temporel, comportements partagés) améliore les performances quantitatives et qualitatives
Urban transport is a crucial issue for territories management. In large cities, many inhabitants have to rely on urban public transport to move around, go to work, visit friends. Historically, urban transportation analysis is based on surveys. Questions are ask to a panel of users, leading to the introduction of various bias and no dynamic informations. Since the late 1990s, we see the emergence of new types of data (GPS, smart cards log, etc.) that describe the mobility and of individuals in the city. Available in large quantities, sampled precisely, but containing few semantics and a lot of noise, they allow a monitoring of the individuals's mobility in the medium term. During this thesis, we propose to work on the modeling of users and the network on the one hand, and the detection of anomalies on the other hand. We will do so using data collected automatically in a context of urban transport networks and using machine learning methods. Moreover, we will focus on the design of methods suited to deal with the particularities of mobility data. We will see that the user-oriented modeling of a transport network allows to obtain fine and robust profiles that can be aggregated efficiently in order to obtain a more precise and more descriptive valuation of the network than a network-oriented modeling. Then, we will explain that the use of these profiles makes it possible to handle complex tasks such as anomaly detection or partitioning of network stations. Finally we will show that the contextualization of the models (spatial context, temporal, shared behaviors) improves the quantitative and qualitative performances
APA, Harvard, Vancouver, ISO, and other styles
20

Bisot, Victor. "Apprentissage de représentations pour l'analyse de scènes sonores." Electronic Thesis or Diss., Paris, ENST, 2018. http://www.theses.fr/2018ENST0016.

Full text
Abstract:
Ce travail de thèse s’intéresse au problème de l’analyse des sons environnementaux avec pour objectif d’extraire automatiquement de l’information sur le contexte dans lequel un son a été enregistré. Ce domaine de recherche a connu un succès grandissant ces dernières années entraînant une rapide évolution du nombre de travaux et des méthodes employées. Nos travaux explorent et contribuent à plusieurs grandes familles d’approches pour l’analyse de scènes et événements sonores allant de l’ingénierie de descripteurs jusqu’aux réseaux de neurones profonds. Notre travail se focalise sur les techniques d’apprentissage de représentations par factorisation en matrices positives (NMF), qui sont particulièrement adaptées à l’analyse d’environnements multi-sources tels que les scènes sonores. Nous commençons par montrer que les spectrogrammes contiennent suffisamment d’information pour discriminer les scènes sonores en proposant une combinaison de descripteurs d’images extraits à partir des images temps-fréquence. Nous quittons ensuite le monde de l’ingénierie de descripteurs pour aller vers un apprentissage automatique des représentations. Nous entamons cette partie du travail en nous intéressant aux approches non-supervisées, en particulier à l’apprentissage de descripteurs par différentes variantes de la NMF. Plusieurs des approches proposées confirment l’intérêt de l’apprentissage de caractéristiques par NMF en obtenant des performances supérieures aux meilleures approches par extraction de descripteurs. Nous proposons ensuite d’améliorer les représentations apprises en introduisant le modèle TNMF, une variante supervisée de la NMF. Les modèles et algorithmes TNMF proposés se basent sur un apprentissage conjoint du classifieur et du dictionnaire de sorte à minimiser un coût de classification. Dans une dernière partie, nous discutons des liens de compatibilité entre la NMF et certaines approches par réseaux de neurones profonds. Nous proposons et adaptons des architectures de réseaux de neurones à l’utilisation de la NMF. Les modèles introduits nous permettent d’atteindre des performances état de l’art sur des tâches de classification de scènes et de détection d’événements sonores. Enfin nous explorons la possibilité d’entraîner conjointement la NMF et les paramètres du réseau, regroupant ainsi les différentes étapes de nos systèmes en un seul problème d’optimisation
This thesis work focuses on the computational analysis of environmental sound scenes and events. The objective of such tasks is to automatically extract information about the context in which a sound has been recorded. The interest for this area of research has been rapidly increasing in the last few years leading to a constant growth in the number of works and proposed approaches. We explore and contribute to the main families of approaches to sound scene and event analysis, going from feature engineering to deep learning. Our work is centered at representation learning techniques based on nonnegative matrix factorization, which are particularly suited to analyse multi-source environments such as acoustic scenes. As a first approach, we propose a combination of image processing features with the goal of confirming that spectrograms contain enough information to discriminate sound scenes and events. From there, we leave the world of feature engineering to go towards automatically learning the features. The first step we take in that direction is to study the usefulness of matrix factorization for unsupervised feature learning techniques, especially by relying on variants of NMF. Several of the compared approaches allow us indeed to outperform feature engineering approaches to such tasks. Next, we propose to improve the learned representations by introducing the TNMF model, a supervised variant of NMF. The proposed TNMF models and algorithms are based on jointly learning nonnegative dictionaries and classifiers by minimising a target classification cost. The last part of our work highlights the links and the compatibility between NMF and certain deep neural network systems by proposing and adapting neural network architectures to the use of NMF as an input representation. The proposed models allow us to get state of the art performance on scene classification and overlapping event detection tasks. Finally we explore the possibility of jointly learning NMF and neural networks parameters, grouping the different stages of our systems in one optimisation problem
APA, Harvard, Vancouver, ISO, and other styles
21

Tamaazousti, Youssef. "Vers l’universalité des représentations visuelle et multimodales." Thesis, Université Paris-Saclay (ComUE), 2018. http://www.theses.fr/2018SACLC038/document.

Full text
Abstract:
En raison de ses enjeux sociétaux, économiques et culturels, l’intelligence artificielle (dénotée IA) est aujourd’hui un sujet d’actualité très populaire. L’un de ses principaux objectifs est de développer des systèmes qui facilitent la vie quotidienne de l’homme, par le biais d’applications telles que les robots domestiques, les robots industriels, les véhicules autonomes et bien plus encore. La montée en popularité de l’IA est fortement due à l’émergence d’outils basés sur des réseaux de neurones profonds qui permettent d’apprendre simultanément, la représentation des données (qui était traditionnellement conçue à la main), et la tâche à résoudre (qui était traditionnellement apprise à l’aide de modèles d’apprentissage automatique). Ceci résulte de la conjonction des avancées théoriques, de la capacité de calcul croissante ainsi que de la disponibilité de nombreuses données annotées. Un objectif de longue date de l’IA est de concevoir des machines inspirées des humains, capables de percevoir le monde, d’interagir avec les humains, et tout ceci de manière évolutive (c’est `a dire en améliorant constamment la capacité de perception du monde et d’interaction avec les humains). Bien que l’IA soit un domaine beaucoup plus vaste, nous nous intéressons dans cette thèse, uniquement à l’IA basée apprentissage (qui est l’une des plus performante, à ce jour). Celle-ci consiste `a l’apprentissage d’un modèle qui une fois appris résoud une certaine tâche, et est généralement composée de deux sous-modules, l’un représentant la donnée (nommé ”représentation”) et l’autre prenant des décisions (nommé ”résolution de tâche”). Nous catégorisons, dans cette thèse, les travaux autour de l’IA, dans les deux approches d’apprentissage suivantes : (i) Spécialisation : apprendre des représentations à partir de quelques tâches spécifiques dans le but de pouvoir effectuer des tâches très spécifiques (spécialisées dans un certain domaine) avec un très bon niveau de performance; ii) Universalité : apprendre des représentations à partir de plusieurs tâches générales dans le but d’accomplir autant de tâches que possible dansdifférents contextes. Alors que la spécialisation a été largement explorée par la communauté de l’apprentissage profond, seules quelques tentatives implicites ont été réalisée vers la seconde catégorie, à savoir, l’universalité. Ainsi, le but de cette thèse est d’aborder explicitement le problème de l’amélioration de l’universalité des représentations avec des méthodes d’apprentissage profond, pour les données d’image et de texte. [...]
Because of its key societal, economic and cultural stakes, Artificial Intelligence (AI) is a hot topic. One of its main goal, is to develop systems that facilitates the daily life of humans, with applications such as household robots, industrial robots, autonomous vehicle and much more. The rise of AI is highly due to the emergence of tools based on deep neural-networks which make it possible to simultaneously learn, the representation of the data (which were traditionally hand-crafted), and the task to solve (traditionally learned with statistical models). This resulted from the conjunction of theoretical advances, the growing computational capacity as well as the availability of many annotated data. A long standing goal of AI is to design machines inspired humans, capable of perceiving the world, interacting with humans, in an evolutionary way. We categorize, in this Thesis, the works around AI, in the two following learning-approaches: (i) Specialization: learn representations from few specific tasks with the goal to be able to carry out very specific tasks (specialized in a certain field) with a very good level of performance; (ii) Universality: learn representations from several general tasks with the goal to perform as many tasks as possible in different contexts. While specialization was extensively explored by the deep-learning community, only a few implicit attempts were made towards universality. Thus, the goal of this Thesis is to explicitly address the problem of improving universality with deep-learning methods, for image and text data. We have addressed this topic of universality in two different forms: through the implementation of methods to improve universality (“universalizing methods”); and through the establishment of a protocol to quantify its universality. Concerning universalizing methods, we proposed three technical contributions: (i) in a context of large semantic representations, we proposed a method to reduce redundancy between the detectors through, an adaptive thresholding and the relations between concepts; (ii) in the context of neural-network representations, we proposed an approach that increases the number of detectors without increasing the amount of annotated data; (iii) in a context of multimodal representations, we proposed a method to preserve the semantics of unimodal representations in multimodal ones. Regarding the quantification of universality, we proposed to evaluate universalizing methods in a Transferlearning scheme. Indeed, this technical scheme is relevant to assess the universal ability of representations. This also led us to propose a new framework as well as new quantitative evaluation criteria for universalizing methods
APA, Harvard, Vancouver, ISO, and other styles
22

Ez-Zaher, Ahmed. "Représentations métaphonologiques et apprentissage de la lecture en arabe." Toulouse 2, 2004. http://www.theses.fr/2004TOU20028.

Full text
Abstract:
L'hypothèse principale de cette étude est que, contrairement à d'autres langues alphabétiques, la conscience syllabique joue un rôle déterminant dans l'apprentissage de la lecture en arabe. En effet, certaines caractéristiques phonologiques et orthographiques de cette langue peuvent avoir une influence sur la conscience phonologique et l'apprentissage de la lecture. Les résultats obtenus avec un échantillon de 80 enfants marocains arabophones âgés de 6 ans et 6 mois en CP, montrent une relation étroite entre la capacité de découpage syllabique et l'apprentissage de la lecture, à la fois en tant que cause et en tant que conséquence de cet apprentissage. Ils permettent d'affirmer que l'apprentissage de la lecture en arabe se suffit d'une conscience syllabe, surtout dans les premières années ou l'enfant apprend à lire dans une orthographe avec voyelles. Dans cette forme d'écriture voyellisée, les correspondances grapho-phonologiques s'établissent majoritairement au niveau des syllabes. Toutefois, la conscience phonémique reste incontournable et semble se développer tardivement, en rapport avec une orthographe sans voyelles. L'enseignement de la lecture en arabe doit s'appuyer sur la syllabe comme unité d'analyse du langage pour faciliter l'entrée de l'enfant dans l'écrit
This study was designed to examine the relation between phonological awareness and learning to read arabic. The main hypothesis holds that, unlike other alphabetic languages, syllabic awareness may play important role in learning to read. Some phonological and orthographic characteristics of the arabic language do have an influence both on phonological awareness children, shows clearly that syllabic awareness is strongly related to learning to read in beginning years, both as prerequisite or as a consequence of this learning. Syllabic segmentation appears much useful to establish letter/sound correspondences in the vowelised script. In contrast, phonemic awareness is needed only later in a second stage when children have to process an unvowelised, deep orthography. It was concluded that in the first stage phonemic awareness is not necessary to acquire reading abilities in vowelised arabic orthography and thus teaching methods must rely on syllabic units to introduce children to literacy
APA, Harvard, Vancouver, ISO, and other styles
23

Villon, Sébastien. "Estimation automatisée sur vidéos de la biodiversité et de l’abondance des poissons coralliens." Thesis, Montpellier, 2019. http://www.theses.fr/2019MONTG058.

Full text
Abstract:
Les récifs coralliens soutiennent une forte biodiversité en poissons (environ 7000 espèces) qui est la source de plusieurs services écosystémiques comme l’apport en protéines via la pêche, la régulation des flux de matière mais aussi le support d’activités récréatives comme la plongée. Cependant, ces poissons subissent des pressions croissantes comme la surexploitation par la pêche et la destruction du corail par réchauffement climatique. Dans ce contexte, un des enjeux majeurs de l’écologie marine est d’estimer précisément la biodiversité, l’abondance et la biomasse de ces poissons récifaux et ce, avec une fréquence temporelle permettant de détecter les modifications liées aux changements environne-mentaux, aux pressions anthropiques et aux stratégies de gestion (e.g. réserves marines). Jusqu’à récemment, le recensement des poissons récifaux s’effectuait principalement en plongée au cours desquelles l’observateur identifiait toutes les espèces visibles et estimait leurs abondances (nombre d’individus). Ce protocole induit des limites comme la durée et la profondeur des plongées ainsi que des erreurs ou des biais liés à l’expérience du plongeur qui ne sont pas quantifiables ou corrigibles a posteriori. Face à ces limitations, les récents développements technologiques dans la prise de vidéos sous-marines en haute définition à moindre coût offrent des protocoles beaucoup moins contraignants. Cependant, il n’existe à l’heure actuelle aucun moyen rapide et fiable d’analyser ces quantités de données ce qui empêche l’essor de ces suivis vidéos à grande échelle. Au cours de cette thèse, nous avons mis en place des algorithmes d’identification et de localisation automatiques de poissons dans des vidéos sous-marines. L’ensemble du processus fut abordé, depuis les campagnes terrain permettant de récolter les vidéos à l’annotation de ces données afin de les rendre exploitables par des algorithmes d’apprentissage profond (ou Deep Learning), à la conception des modèles, au test de ces modèles et au traitement des sorties des différents modèles. Nous avons ainsi récolté plus de 380.000 images appartenant à plus de 300 espèces de poissons récifaux. Nous avons développé des méthodes d’identification précises (94% de bonnes classifications) pour 20 espèces parmi les plus présentes sur les récifs coralliens autour de Mayotte, ainsi que des méthodes de post-traitement permettant de détecter et de supprimer les erreurs commises par le modèle (diminuant ainsi le taux d’erreur jusqu’à 2%). Nous avons aussi développé un algorithme de détection permettant de localiser plus de 84% des individus présents à l’image sur une vidéo
Coral reefs are home of a great fish biodiversity (approximately 7000 species). This biodiversity is the source of many vital ecosystem services such as protein intakes for local populations, nutrients cycle or regulation of algae abundancy. However, increasing human pressure through over-fishing and global warming is destroying both fish popu-lations and their habitats. In this context, monitoring the coral reef fish biodiversity,abundancy and biomass with precision is one of the major issues for marine ecology. To face the increasing pressure and fast globals changes, such monitoring has to be done at a large sclae, temporally and spatially. Up to date, most of fish underwater census is achieved through diving, during which the diver identify fish species and count them. Such manual census induces many constraints (depth and duration of the dive) and biais due to the diver experience. These biais (mistaking fish species or over/under estimating fish populations) are not quantifiable nor correctable. Today, thanks to the improvement of high resolution, low-cost, underwater cameras, new protocoles are developed to use video census. However, there is not yet a way to automaticaly process these underwater videos.Therefore, the analysis of the videos remains a bottleneck between the data gathering through video census and the analysis of fish communities. During this thesis, we develop-ped automated methods for detection and identification of fish in underwater videos with Deep Learning based algorithm. We work on all aspects of the pipeline, from video acqui-sition, data annotation, to the models and post-processings conception, and models testing. Today, we have gather more than 380,000 images of 300 coral reef species. We developped an identification model who successfully identified 20 of the most common species onMayotte coral reefs with 94% rate of success, and post-processing methods allowing us to decrease the error rate down to 2%. We also developped a detection method allowing us to detect up to 84% of fish individuals in underwater videos
APA, Harvard, Vancouver, ISO, and other styles
24

Gaidon, Adrien. "Modèles structurés pour la reconnaissance d'actions dans des vidéos réalistes." Phd thesis, Université de Grenoble, 2012. http://tel.archives-ouvertes.fr/tel-00780679.

Full text
Abstract:
Cette thèse décrit de nouveaux modèles pour la reconnaissance de catégories d'actions comme "ouvrir une porte" ou "courir" dans des vidéos réalistes telles que les films. Nous nous intéressons tout particulièrement aux propriétés structurelles des actions : comment les décomposer, quelle en est la structure caractéristique et comment utiliser cette information afin de représenter le contenu d'une vidéo. La difficulté principale à laquelle nos modèles s'attellent réside dans la satisfaction simultanée de deux contraintes antagonistes. D'une part, nous devons précisément modéliser les aspects discriminants d'une action afin de pouvoir clairement identifier les différences entre catégories. D'autre part, nos représentations doivent être robustes en conditions réelles, c'est-à-dire dans des vidéos réalistes avec de nombreuses variations visuelles en termes d'acteurs, d'environnements et de points de vue. Dans cette optique, nous proposons donc trois modèles précis et robustes à la fois, qui capturent les relations entre parties d'actions ainsi que leur contenu. Notre approche se base sur des caractéristiques locales --- notamment les points d'intérêts spatio-temporels et le flot optique --- et a pour objectif d'organiser l'ensemble des descripteurs locaux décrivant une vidéo. Nous proposons aussi des noyaux permettant de comparer efficacement les représentations structurées que nous introduisons. Bien que nos modèles se basent tous sur les principes mentionnés ci-dessus, ils différent de par le type de problème traité et la structure sur laquelle ils reposent. Premièrement, nous proposons de modéliser une action par une séquence de parties temporelles atomiques correspondant à une décomposition sémantique. De plus, nous décrivons comment apprendre un modèle flexible de la structure temporelle dans le but de localiser des actions dans des vidéos de longue durée. Deuxièmement, nous étendons nos idées à l'estimation et à la représentation de la structure spatio-temporelle d'activités plus complexes. Nous décrivons un algorithme d'apprentissage non supervisé permettant de dégager automatiquement une décomposition hiérarchique du contenu dynamique d'une vidéo. Nous utilisons la structure arborescente qui en résulte pour modéliser une action de manière hiérarchique. Troisièmement, au lieu de comparer des modèles structurés, nous explorons une autre alternative : directement comparer des modèles de structure. Pour cela, nous représentons des actions de courte durée comme des séries temporelles en haute dimension et étudions comment la dynamique temporelle d'une action peut être utilisée pour améliorer les performances des modèles non structurés formant l'état de l'art en reconnaissance d'actions. Dans ce but, nous proposons un noyau calculant de manière efficace la similarité entre les dépendances temporelles respectives de deux actions. Nos trois approches et leurs assertions sont à chaque fois validées par des expériences poussées sur des bases de données publiques parmi les plus difficiles en reconnaissance d'actions. Nos résultats sont significativement meilleurs que ceux de l'état de l'art, illustrant ainsi à quel point la structure des actions est importante afin de bâtir des modèles précis et robustes pour la reconnaissance d'actions dans des vidéos réalistes.
APA, Harvard, Vancouver, ISO, and other styles
25

Guilmart, Christophe. "Filtrage de segments informatifs dans des vidéos." Phd thesis, École normale supérieure de Cachan - ENS Cachan, 2011. http://tel.archives-ouvertes.fr/tel-00668307.

Full text
Abstract:
Les travaux réalisés dans le cadre de cette thèse ont pour objectif d'extraire les différents segments informatifs au sein de séquences vidéo, plus particulièrement aériennes. L'interprétation manuelle de telles vidéos dans une optique de renseignement se heurte en effet au volume des données disponibles. Une assistance algorithmique fondée sur diverses modalités d'indexation est donc envisagée, dans l'objectif de repérer les "segments d'intérêt" et éviter un parcours intégral de la vidéo. Deux approches particulières ont été retenues et respectivement développées au sein de chaque partie. La partie 1 propose une utilisation des conditions de prise de vue (CPDV) comme modalités d'indexation. Une évaluation de la qualité image permet ainsi de filtrer les segments temporels de mauvaise qualité et donc inexploitables. La classification du mouvement image apparent directement lié au mouvement caméra, fournit une indexation de séquences vidéo en soulignant notamment les segments potentiels d'intérêt ou au contraire les segments difficiles présentant un mouvement très rapide ou oscillant. La partie 2 explore le contenu dynamique de la séquence vidéo, plus précisément la présence d'objets en mouvement. Une première approche locale en temps est présentée. Elle filtre les résultats d'une première classification par apprentissage supervisé en exploitant les informations de contexte, spatial puis sémantique. Différentes approches globales en temps sont par la suite explorées. De telles approches permettent de garantir la cohérence temporelle des résultats et réduire les fausses alarmes.
APA, Harvard, Vancouver, ISO, and other styles
26

Boisson, Arthur. "Motricité et intégration multi-sensorielle : apprentissage des représentations grapho-phonémiques." Thesis, Lyon, 2018. http://www.theses.fr/2018LYSE2126/document.

Full text
Abstract:
Nous sommes, dans notre vie quotidienne entourés d'associations audio-visuelles : nous les percevons et les mémorisons tout au long de notre vie. Pourtant, les mécanismes impliqués dans leur apprentissage restent abscons. En particulier, les facteurs comme la motricité permettant de favoriser de tels apprentissages, sont rarement étudiés d'un point de vue mnésique.Ainsi, les objectifs généraux de cette thèse visent à : i) étudier les mécanismes cognitifs à la base de l'apprentissage d'associations audio-visuelles, ii) mieux comprendre l'impact de la motricité dans l'efficacité de ses mécanismes, et iii) proposer des méthodologies originales susceptibles d'augmenter l'efficacité de ces mécanismes et/ou de compenser d'éventuels déficits.Plus précisément, ce travail de thèse s'intéresse au bénéfice de la motricité dans l'apprentissage des correspondances grapho-phonémiques (CGP). En plus de l'intérêt purement théorique que suscite l'étude de cet apprentissage, l'importance de cette acquisition chez les jeunes enfants pré-lecteurs ajoute une portée pratique et pédagogique à ce travail. L’originalité de ce travail de thèse est de vouloir rapprocher deux grands domaines d'études, celui de l’apprentissage de la lecture/écriture et celui de la mémoire. Bien que les deux domaines traitent d'apprentissage et donc de mémoire, il n'y a jamais eu de véritable tentative d'application des modèles de la mémoire pour aider à la compréhension des mécanismes d'apprentissage de la lecture-écriture de mots, et inversement, les travaux sur la mémoire ont rarement regardé du côté des recherches sur l'apprentissage de la lecture-écriture pour valider leurs hypothèses. Or, l’un des intérêts du modèle Act-In servant de support à cette thèse est justement de proposer une approche intégrée du fonctionnement cognitif et pas seulement de la mémoire
In our daily lives, we are surrounded by audiovisual associations: we perceive and memorize them throughout our lives. However, the mechanisms involved in their learning are not fully understood. In particular, factors such as motor skills that promote such learning are rarely studied from a memory point of view.Thus, the general objectives of this thesis are to: i) study the cognitive mechanisms underlying the learning of audio-visual associations, ii) better understand the impact of motor skills on the effectiveness of its mechanisms, and iii) propose original methodologies likely to increase the effectiveness of these mechanisms and/or compensate for possible deficits.More precisely, this thesis work focuses on the benefit of motor exploration in learning grapho-phonemic correspondences (GPC). In addition to the purely theoretical interest in studying this learning, the importance of this acquisition for young pre-readers adds a practical and pedagogical dimension to this work. What stands out from this thesis is that two areas of study, the one of learning to read and the one of memory are combined. Though both of them deal with learning hence memory, there has never been a real attempt to apply memory models to help understand the mechanisms of learning word reading and writing, and conversely, memory research has rarely looked to research on learning to read and write to validate their assumptions. However, one of the interests of the Act-In model used to support this thesis is precisely to propose an integrated approach to cognitive functioning and not only to memory
APA, Harvard, Vancouver, ISO, and other styles
27

Le, Hy Ronan. "Programmation et apprentissage bayésien de comportements pour des personnages synthétiques : applications aux personnages de jeux vidéos." Grenoble INPG, 2007. http://www.theses.fr/2007INPG0040.

Full text
Abstract:
Nous nous intéressons à l'acquisition de comportements par des personnages autonomes (bots) évoluant dans des mondes virtuels, en prenant comme exemple les jeux vidéos. Nos deux objectifs essentiels sont: réduire le temps et la difficulté de programmation pour le développeur ; et offrir au joueur la possibilité d'enseigner à des bots comment jouer. Nous proposons une méthode de construction de comportements basée sur la programmation bayésienne, un formalisme de description de modèles probabilistes. Celle-ci repose sur deux innovations : une technique générique de définition de tâches élémentaires, appelée fusion par cohérence améliorée ; et une technique de mise en séquence de ces tâches élémentaires, appelée programmation inverse. Contrairement à l'approche classique, cette méthode de construction de comportement permet facilement l'apprentissage par démonstration
We treat the problem of behaviours for autonomous characters (bots) in virtual worlds, with the example of video games. Our two essential objectives are : to reduce time and difficulty of behaviour development ; to give to the player a new possibility : teaching bots how to play. We propose a method to build behaviours based on Bayesian programming (a formalism to describe probabilist models). It lays on two innovations: a generic technique for definition of elementary tasks, called enhanced fusion by coherence; and a technique for sequencing these elementary tasks, called inverse programming. Ln contrast with classical approaches, this method allows to efficiently learn behaviours by demonstration
APA, Harvard, Vancouver, ISO, and other styles
28

Hamadi, Abdelkader. "Utilisation du contexte pour l'indexation sémantique des images et vidéos." Thesis, Grenoble, 2014. http://www.theses.fr/2014GRENM047/document.

Full text
Abstract:
L'indexation automatisée des documents image fixe et vidéo est un problème difficile en raison de la ``distance'' existant entre les tableaux de nombres codant ces documents et les concepts avec lesquels on souhaite les annoter (personnes, lieux, événements ou objets, par exemple). Des méthodes existent pour cela mais leurs résultats sont loin d'être satisfaisants en termes de généralité et de précision. Elles utilisent en général un ensemble unique de tels exemples et le considère d'une manière uniforme. Ceci n'est pas optimal car un même concept peut apparaître dans des contextes très divers et son apparence peut être très différente en fonction de ces contextes. Dans le cadre de cette thèse, nous avons considéré l'utilisation du contexte pour l'indexation des documents multimédia. Le contexte a largement été utilisé dans l'état de l'art pour traiter diverses problématiques. Dans notre travail, nous retenons les relations entre les concepts comme source de contexte sémantique. Pour le cas des vidéos, nous exploitons le contexte temporel qui modélise les relations entre les plans d'une même vidéo. Nous proposons plusieurs approches utilisant les deux types de contexte ainsi que leur combinaison, dans différents niveaux d'un système d'indexation. Nous présentons également le problème de détection simultanée de groupes de concepts que nous jugeons lié à la problématique de l'utilisation du contexte. Nous considérons que la détection d'un groupe de concepts revient à détecter un ou plusieurs concepts formant le groupe dans un contexte ou les autres sont présents. Nous avons étudié et comparé pour cela deux catégories d'approches. Toutes nos propositions sont génériques et peuvent être appliquées à n'importe quel système pour la détection de n'importe quel concept. Nous avons évalué nos contributions sur les collections de données TRECVid et VOC, qui sont des standards internationaux et reconnues par la communauté. Nous avons obtenu de bons résultats, comparables à ceux des meilleurs systèmes d'indexation évalués ces dernières années dans les compagnes d'évaluation précédemment citées
The automated indexing of image and video is a difficult problem because of the``distance'' between the arrays of numbers encoding these documents and the concepts (e.g. people, places, events or objects) with which we wish to annotate them. Methods exist for this but their results are far from satisfactory in terms of generality and accuracy. Existing methods typically use a single set of such examples and consider it as uniform. This is not optimal because the same concept may appear in various contexts and its appearance may be very different depending upon these contexts. In this thesis, we considered the use of context for indexing multimedia documents. The context has been widely used in the state of the art to treat various problems. In our work, we use relationships between concepts as a source of semantic context. For the case of videos, we exploit the temporal context that models relationships between the shots of the same video. We propose several approaches using both types of context and their combination, in different levels of an indexing system. We also present the problem of multiple concept detection. We assume that it is related to the context use problematic. We consider that detecting simultaneously a set of concepts is equivalent to detecting one or more concepts forming the group in a context where the others are present. To do that, we studied and compared two types of approaches. All our proposals are generic and can be applied to any system for the detection of any concept. We evaluated our contributions on TRECVID and VOC collections, which are of international standards and recognized by the community. We achieved good results comparable to those of the best indexing systems evaluated in recent years in the evaluation campaigns cited previously
APA, Harvard, Vancouver, ISO, and other styles
29

Amate, Laure. "Apprentissage de modèles de formes parcimonieux basés sur des représentations splines." Phd thesis, Université de Nice Sophia-Antipolis, 2009. http://tel.archives-ouvertes.fr/tel-00456612.

Full text
Abstract:
Il est souvent important de trouver une représentation compacte des propriétés morphologiques d'un ensemble d'objets. C'est le cas lors du déplacement de robots autonomes dans des environnements naturels, qui doivent utiliser les objets dispersés dans la région de travail pour naviguer. Cette thèse est une contribution à la définition de formalismes et méthodes pour l'identification de tels modèles. Les formes que nous voulons caractériser sont des courbes fermées correspondant aux contours des objets détectés dans l'environnement, et notre caractérisation des leurs propriétés sera probabiliste. Nous formalisons la notion de forme en tant que classes d'équivalence par rapport à des groupes d'opérateurs géométriques basiques, introduisant deux approches : discrète et continue. La théorie discrète repose sur l'existence d'un ensemble de points remarquables et est sensible à leur sélection. L'approche continue, qui représente une forme par des objets de dimension infinie, correspond mieux à la notion intuitive de forme mais n'est pas parcimonieuse. Nous combinons les avantages des deux approches en représentant les formes à l'aide de splines : fonctions continues, flexibles, définies par un ensemble de noeuds et de points de contrôle. Nous étudions d'abord l'ajustement d'un modèle spline à une courbe, comme la recherche d'un compromis entre la parcimonie de la représentation et sa fidélité aux données, approche classique dans le cadre de familles imbriquées de dimension croissante. Nous passons en revue les méthodes utilisées dans la littérature, et nous retenons une approche en deux étapes, qui satisfait nos pré-requis : détermination de la complexité du modèle (par une chaîne de Markov à sauts réversibles), suivie de l'estimation des paramètres (par un algorithme de recuit simulé). Nous discutons finalement le lien entre l'espace de formes discrètes et les représentations splines lorsque l'on prend comme points remarquables les points de contrôle. Nous étudions ensuite le problème de modélisation d'un ensemble de courbes, comme l'identification de la distribution des paramètres de leur représentation par des splines où les points de contrôles et les noeuds sont des variables latentes du modèle. Nous estimons ces paramètres par un critère de vraisemblance marginale. Afin de pouvoir traiter séquentiellement un grand nombre de données nous adaptons une variante de l'algorithme EM proposée récemment. Le besoin de recourir à des approximations numériques (méthodes de Monte-Carlo) pour certains calculs requis par la méthode EM, nous conduit à une nouvelle variante de cet algorithme, proposée ici pour la première fois.
APA, Harvard, Vancouver, ISO, and other styles
30

Do, Huu Nicolas. "Apprentissage de représentations sensori-motrices pour la reconnaissance d'objet en robotique." Phd thesis, Université Paul Sabatier - Toulouse III, 2007. http://tel.archives-ouvertes.fr/tel-00283073.

Full text
Abstract:
Depuis plusieurs années, la robotique mobile tente de s'extraire de l'espace amniotique des laboratoires de recherche afin d'explorer l'univers imprévisible, voire hostile, de nos lieux de vie, de travail, pour nous servir ou nous divertir. Or, les méthodes classiques de l'intelligence artificielle nécessitent des modèles du robot, de ses actions et de ses perceptions, conçus a priori. Elles sont donc peu adaptées à l'inattendu et à la nouveauté. D'autre part, les systèmes d'apprentissage artificiel, souvent d'inspiration biologique, semblent à présent en voie de fournir les capacités d'adaptation manquantes à ces premières. Nous envisageons dans cette thèse l'apprentissage comme un mécanisme central de l'architecture robotique. Celle-ci peut être représentée sous les traits d'une boucle sensori-motrice où actions et perceptions se rejoignent au sein d'une structure associative. L'apprentissage permet l'acquisition de connaissances nouvelles sur l'environnement mais il intervient également dans la modélisation des actions du robot : en associant des combinaisons de consignes simples sur les moteurs, et en mémorisant les effets de ces actions sur l'environnement ou sur le robot lui-même. Cette forme d'apprentissage a pour support un réseau de neurones permettant un apprentissage en ligne non supervisé. Cette architecture permet également d'exprimer les motivations et les objectifs du robot par le biais d'un second système d'apprentissage en associant une valeur de récompense aux représentations des actions ou des perceptions, par un apprentissage par renforcement. C'est donc l'utilité de chaque action, qui permettra finalement à un processus décisionnel d'avoir lieu.
APA, Harvard, Vancouver, ISO, and other styles
31

Breton, Jean-Luc. "Apprentissage de l'anglais en section européenne au lycée : représentations et pratiques." Phd thesis, Paris 10, 2011. http://tel.archives-ouvertes.fr/tel-00812568.

Full text
Abstract:
La recherche présentée s'appuie sur un suivi longitudinal à la fois d'élèves scolarisés en sections européennes dans des séries générales, technologiques et professionnelles, et d'un groupe-témoin de lycéens qui ne suivent pas ce type d'enseignement. Après une présentation du dispositif spécifique que constituent les sections européennes, de la réalité locale des établissements observés et des lycéens ayant participé à l'enquête, ce travail se poursuit par l'analyse des productions écrites en anglais de ces lycéens et l'étude des représentations qu'ils ont de leur apprentissage et de l'enseignement qu'ils reçoivent. Cela permet en premier lieu de percevoir que les élèves inscrits en section européenne ne parviennent pas à une compétence discursive en anglais plus vaste et plus ciblée que celle des autres lycéens de leur âge scolarisés dans des classes " ordinaires ", d'autre part de mettre en évidence l'impact cognitif de l'expérience personnelle de la langue étrangère sur le progrès des élèves.
APA, Harvard, Vancouver, ISO, and other styles
32

Amate, Laure. "Apprentissage de modèles de formes parcimonieux basés sur les représentations splines." Nice, 2009. http://www.theses.fr/2009NICE4117.

Full text
Abstract:
Il est souvent important de trouver une représentation compacte des propriétés morphologiques d'un ensemble d'objets. C'est le cas lors du déplacement de robots autonomes dans des environnements naturels, qui doivent utiliser les objets dispersés dans la région de travail pour naviguer. Cette thèse est une contribution à la définition de formalismes et méthodes pour l'identification de tels modèles. Les formes que nous voulons caractériser sont des courbes fermées correspondant aux contours des objets détectés dans l'environnement, et notre caractérisation des leurs propriétés sera probabiliste. Nous formalisons la notion de forme en tant que classes d'équivalence par rapport à des groupes d'opérateurs géométriques basiques, introduisant deux approches : discrète et continue. La théorie discrète repose sur l'existence d'un ensemble de points remarquables et est sensible à leur sélection. L'approche continue, qui représente une forme par des objets de dimension infinie, correspond mieux à la notion intuitive de forme mais n'est pas parcimonieuse. Nous combinons les avantages des deux approches en représentant les formes à l'aide de splines : fonctions continues, flexibles, définies par un ensemble de noeuds et de points de contrôle. Nous étudions d'abord l'ajustement d'un modèle spline à une courbe, comme la recherche d'un compromis entre la parcimonie de la représentation et sa _délité aux données, approche classique dans le cadre de familles imbriquées de dimension croissante. Nous passons en revue les méthodes utilisées dans la littérature, et nous retenons une approche en deux étapes, qui satisfait nos pré-requis : détermination de la complexité du modèle (par une chaîne de Markov à sauts réversibles), suivie de l'estimation des paramètres (par un algorithme de recuit simulé). Nous discutons finalement le lien entre l'espace de formes discrètes et les représentations splines lorsque l'on prend comme points remarquables les points de contrôle. Nous étudions ensuite le problème de modélisation d'un ensemble de courbes, comme l'identification de la distribution des paramètres de leur représentation par des splines où les points de contrôles et les noeuds sont des variables latentes du modèle. Nous estimons ces paramètres par un critère de vraisemblance marginale. Afin de pouvoir traiter séquentiellement un grand nombre de données nous adaptons une variante de l'algorithme EM proposée récemment. Le besoin de recourir à des approximations numériques (méthodes de Monte-Carlo) pour certains calculs requis par la méthode EM, nous conduit à une nouvelle variante de cet algorithme, proposée ici pour la première fois
In many contexts it is important to be able to find compact representations of the collective morphological properties of a set of objects. This is the case of autonomous robotic platforms operating in natural environments that must use the perceptual properties of the objects present in their workspace to execute their mission. This thesis is a contribution to the definition of formalisms and methods for automatic identification of such models. The shapes we want to characterize are closed curves corresponding to contours of objects detected in the scene. We begin with the formal definition of the notion of shape as classes of equivalence with respect to groups of basic geometric operators, introducing two distinct approaches that have been used in the literature: discrete and continuous. The discrete theory, admitting the existence of a finite number of recognizable landmarks, provides in an obvious manner a compact representation but is sensible to their selection. The continuous theory of shapes provides a more fundamental approach, but leads to shape spaces of infinite dimension, lacking the parsimony of the discrete representation. We thus combine in our work the advantages of both approaches representing shapes of curves with splines: piece-wise continuous polynomials defined by sets of knots and control points. We first study the problem of fitting free-knots splines of varying complexity to a single observed curve. The trade-o_ between the parsimony of the representation and its fidelity to the observations is a well known characteristic of model identification using nested families of increasing dimension. After presenting an overview of methods previously proposed in the literature, we single out a two-step approach which is formally sound and matches our specific requirements. It splits the identification, simulating a reversible jump Markov chain to select the complexity of the model followed by a simulated annealing algorithm to estimate its parameters. We investigate the link between Kendall's shape space and spline representations when we take the spline control points as landmarks. We consider now the more complex problem of modeling a set of objects with similar morphological characteristics. We equate the problem to finding the statistical distribution of the parameters of the spline representation, modeling the knots and control points as unobserved variables. The identified distribution is the maximizer of a marginal likelihood criterion, and we propose a new Expectation-Maximization algorithm to optimize it. Because we may want to treat a large number of curves observed sequentially, we adapt an iterative (on-line) version of the EM algorithm recently proposed in the literature. For the choice of statistical distributions that we consider, both the expectation and the maximization steps must resort to numerical approximations, leading to a stochastic/on-line variant of the EM algorithm that, as far as we know, is implemented here for the first time
APA, Harvard, Vancouver, ISO, and other styles
33

Munzer, Thibaut. "Représentations relationnelles et apprentissage interactif pour l'apprentissage efficace du comportement coopératif." Thesis, Bordeaux, 2017. http://www.theses.fr/2017BORD0574/document.

Full text
Abstract:
Cette thèse présente de nouvelles approches permettant l’apprentissage efficace et intuitif de plans de haut niveau pour les robots collaboratifs. Plus précisément, nous étudions l’application d’algorithmes d’apprentissage par démonstration dans des domaines relationnels. L’utilisation de domaines relationnels pour représenter le monde permet de simplifier la représentation de comportements concurrents et collaboratifs. Nous avons commencé par développer et étudier le premier algorithme d’apprentissage par renforcement inverse pour domaines relationnels. Nous avons ensuite présenté comment utiliser le formalisme RAP pour représenter des tâches collaboratives comprenant un robot et un opérateur humain. RAP est une extension des MDP relationnels qui permet de modéliser des activités concurrentes. Utiliser RAP nous a permis de représenter à la fois l’humain et le robot dans le même processus, mais également de modéliser des activités concurrentes du robot. Sous ce formalisme, nous avons montré qu’il était possible d’apprendre le comportement d’une équipe, à la fois comme une politique et une récompense. Si des connaissances a priori sur la tâche à réaliser sont disponibles, il est possible d’utiliser le même algorithme pour apprendre uniquement les préférences de l’opérateur. Cela permet de s’adapter à l’utilisateur. Nous avons montré que l’utilisation des représentations relationnelles permet d’apprendre des comportements collaboratifs à partir de peu de démonstrations.Ces comportements sont à la fois robustes au bruit, généralisables à de nouveaux états, et transférables à de nouveaux domaines (par exemple en ajoutant des objets). Nous avons également introduit une architecture d’apprentissage interactive qui permet au système de faire moins d’erreurs tout en demandant moins d’efforts à l’opérateur humain. Le robot, en estimant sa confiance dans ses décisions, est capable de demander des instructions quand il est incertain de l’activité à réaliser. Enfin, nous avons implémenté ces approches sur un robot et montré leurs impacts potentiels dans un scenario réaliste
This thesis presents new approaches toward efficient and intuitive high-level plan learning for cooperative robots. More specifically this work study Learning from Demonstration algorithm for relational domains. Using relational representation to model the world, simplify representing concurrentand cooperative behavior.We have first developed and studied the first algorithm for Inverse ReinforcementLearning in relational domains. We have then presented how one can use the RAP formalism to represent Cooperative Tasks involving a robot and a human operator. RAP is an extension of the Relational MDP framework that allows modeling concurrent activities. Using RAP allow us to represent both the human and the robot in the same process but also to model concurrent robot activities. Under this formalism, we have demonstrated that it is possible to learn behavior, as policy and as reward, of a cooperative team. Prior knowledge about the task can also be used to only learn preferences of the operator.We have shown that, using relational representation, it is possible to learn cooperative behaviors from a small number of demonstration. That these behaviors are robust to noise, can generalize to new states and can transfer to different domain (for example adding objects). We have also introduced an interactive training architecture that allows the system to make fewer mistakes while requiring less effort from the human operator. By estimating its confidence the robot is able to ask for instructions when the correct activity to dois unsure. Lastly, we have implemented these approaches on a real robot and showed their potential impact on an ecological scenario
APA, Harvard, Vancouver, ISO, and other styles
34

Zuo, Jingwei. "Apprentissage de représentations et prédiction pour des séries-temporelles inter-dépendantes." Electronic Thesis or Diss., université Paris-Saclay, 2022. http://www.theses.fr/2022UPASG038.

Full text
Abstract:
Les séries temporelles sont un type de données endémique dans de nombreux domaines d'applications, telles que l'analyse financière, le diagnostic médical, la surveillance de l'environnement ou encore l'astronomie. Du fait de leur structure complexe, les séries temporelles amènent à de nouveaux défis dans le traitement et l'extraction de connaissances de ces données. La représentation des séries temporelles joue un rôle déterminant dans les méthodes d'apprentissage et les tâches de fouille de données. Cependant, peu de méthodes tiennent compte des interdépendances entre séries temporelles différentes. De plus, la fouille de séries temporelles nécessite de considérer non seulement les caractéristiques des séries temporelles en termes de complexité des données, mais également les contextes particuliers des applications et la tâche de fouille de données à effectuer. Cela nous permet de construire des représentations spécifiques à la tâche.Dans cette thèse, nous étudions différentes représentations de séries temporelles capables de s'adapter à diverses tâches de fouille de séries temporelles, tout en capturant les relations entre elles. Nous nous concentrons spécifiquement sur la modélisation des interdépendances entre séries temporelles lors de la construction des représentations, qui peuvent être la dépendance temporelle au sein de chaque source de données ou la dépendance inter-variable entre des sources de données différentes. En conséquence, nous étudions les séries temporelles collectées dans diverses applications sous différentes formes. Tout d'abord, pour tenir compte de la dépendance temporelle entre les observations, nous apprenons la représentation de série temporelle dans un contexte de flux dynamique, où la série temporelle est générée en continu à partir de la source de données. Quant à la dépendance inter-variable, nous étudions les séries temporelles multivariées (MTS) avec des données collectées à partir de plusieurs sources. Enfin, nous étudions le MTS dans le contexte de la ville intelligente, où chaque source de données est associée à une localisation spatiale. Par conséquent, le MTS devient une série temporelle géo-localisée (GTS), pour laquelle la modélisation de la dépendance inter-variable requière la prise en compte de l'information spatiale sous-jacente. De ce fait, pour chaque type de séries temporelles collectées dans des contextes différents, nous proposons une méthode de représentation adaptée aux dépendances temporelles et/ou inter-variables.Outre la complexité des données provenant des interdépendances des séries temporelles, nous étudions diverses tâches d'apprentissage automatique sur des séries temporelles afin de valider les représentations apprises. Les tâches d'apprentissage étudiées dans cette thèse consistent en la classification de séries temporelles, l'apprentissage semi-supervisé de séries temporelles et la prévision de séries temporelles. Nous montrons comment les représentations apprises sont exploitées dans ces différentes tâches et pour des applications distinctes.Plus précisément, nos principales contributions sont les suivantes. En premier lieu, nous proposons un modèle d'apprentissage dynamique de la représentation des séries temporelles dans le contexte du flux de données, où nous considérons à la fois les caractéristiques des séries temporelles et les défis des flux de données. Nous affirmons et démontrons que le motif de Shapelet, basé sur la forme, est la meilleure représentation dans le contexte dynamique. Par ailleurs, nous proposons un modèle semi-supervisé pour l'apprentissage de représentation dans les MTS. Ce modèle considère la dépendance inter-variable dans l'hypothèse réaliste où les annotations de données sont limitées. Enfin, nous proposons un modèle d'apprentissage de représentation de GTS dans le contexte de la ville intelligente. Nous étudions spécifiquement la tâche de prévision du trafic routier avec un focus sur le traitement intégré des valeurs manquantes
Time series is a common data type that has been applied to enormous real-life applications, such as financial analysis, medical diagnosis, environmental monitoring, astronomical discovery, etc. Due to its complex structure, time series raises several challenges in their data processing and mining. The representation of time series plays a key role in data mining tasks and machine learning algorithms for time series. Yet, a few methods consider the interrelation that may exist between different time series when building the representation. Moreover, the time series mining requires considering not only the time series' characteristics in terms of data complexity but also the concrete application scenarios where the data mining task is performed to build task-specific representations.In this thesis, we will study different time series representation approaches that can be used in various time series mining tasks, while capturing the relationships among them. We focus specifically on modeling the interrelations between different time series when building the representations, which can be the temporal relationship within each data source or the inter-variable relationship between various data sources. Accordingly, we study the time series collected from various application contexts under different forms. First, considering the temporal relationship between the observations, we learn the time series in a dynamic streaming context, i.e., time series stream, for which the time series data is continuously generated from the data source. Second, for the inter-variable relationship, we study the multivariate time series (MTS) with data collected from multiple data sources. Finally, we study the MTS in the Smart City context, when each data source is given a spatial position. The MTS then becomes a geo-located time series (GTS), for which the inter-variable relationship requires more modeling efforts with the external spatial information. Therefore, for each type of time series data collected from distinct contexts, the interrelations between the time series observations are emphasized differently, on the temporal or (and) variable axis.Apart from the data complexity from the interrelations, we study various machine learning tasks on time series in order to validate the learned representations. The high-level learning tasks studied in this thesis consist of time series classification, semi-supervised time series learning, and time series forecasting. We show how the learned representations connect with different time series learning tasks under distinct application contexts. More importantly, we conduct the interdisciplinary study on time series by leveraging real-life challenges in machine learning tasks, which allows for improving the learning model's performance and applying more complex time series scenarios.Concretely, for these time series learning tasks, our main research contributions are the following: (i) we propose a dynamic time series representation learning model in the streaming context, which considers both the characteristics of time series and the challenges in data streams. We claim and demonstrate that the Shapelet, a shape-based time series feature, is the best representation in such a dynamic context; (ii) we propose a semi-supervised model for representation learning in multivariate time series (MTS). The inter-variable relationship over multiple data sources is modeled in a real-life context, where the data annotations are limited; (iii) we design a geo-located time series (GTS) representation learning model for Smart City applications. We study specifically the traffic forecasting task, with a focus on the missing-value treatment within the forecasting algorithm
APA, Harvard, Vancouver, ISO, and other styles
35

Pop, Ionel. "Détection des événements rares dans des vidéos." Thesis, Lyon 2, 2010. http://www.theses.fr/2010LYO22023.

Full text
Abstract:
Le travail présenté dans cette étude se place dans le contexte de l’analyse automatique des vidéos. A cause du nombre croissant des données vidéo, il est souvent difficile, voire impossible qu’un ou plusieurs opérateurs puissent les regarder toutes. Une demande récurrente est d’identifier les moments dans la vidéo quand il y a quelque chose d’inhabituel qui se passe, c’est-à-dire la détection des événements anormaux.Nous proposons donc plusieurs algorithmes permettant d’identifier des événements inhabituels, en faisant l’hypothèse que ces événements ont une faible probabilité. Nous abordons plusieurs types d’événements, de l’analyse des zones en mouvement à l’analyse des trajectoires des objets suivis.Après avoir dédié une partie de la thèse à la construction d’un système de suivi,nous proposons plusieurs mesures de similarité entre des trajectoires. Ces mesures, basées sur DTW (Dynamic Time Warping), estiment la similarité des trajectoires prenant en compte différents aspects : spatial, mais aussi temporel, pour pouvoir - par exemple - faire la différence entre des trajectoires qui ne sont pas parcourues de la même façon (en termes de vitesse de déplacement). Ensuite, nous construisons des modèles de trajectoires, permettant de représenter les comportements habituels des objets pour pouvoir ensuite détecter ceux qui s’éloignent de la normale.Pour pallier les défauts de suivi qui apparaissent dans la pratique, nous analysons les vecteurs de flot optique et nous construisons une carte de mouvement. Cette carte modélise sous la forme d’un codebook les directions privilégiées qui apparaissent pour chaque pixel, permettant ainsi d’identifier tout déplacement anormal, sans avoir pour autant la notion d’objet suivi. En utilisant la cohérence temporelle, nous pouvons améliorer encore plus le taux de détection, affecté par les erreurs d’estimation de flot optique. Dans un deuxième temps, nous changeons la méthode de constructions de cette carte de mouvements, pour pouvoir extraire des caractéristiques de plus haut niveau — l’équivalent des trajectoires, mais toujours sans nécessiter le suivi des objets. Nous pouvons ainsi réutiliser partiellement l’analyse des trajectoires pour détecter des événements rares.Tous les aspects présentés dans cette thèse ont été implémentés et nous avons construit certaines applications, comme la prédiction des déplacements des objets ou la mémorisation et la recherche des objets suivis
The growing number of video data makes often difficult, even impossible, any attemptof watching them entirely. In the context of automatic analysis of videos, a recurring request is to identify moments in the video when something unusual happens.We propose several algorithms to identify unusual events, making the hypothesis that these events have a low probability. We address several types of events, from those generates by moving areas to the trajectories of objects tracked. In the first part of the study, we build a simple tracking system. We propose several measures of similarity between trajectories. These measures give an estimate of the similarity of trajectories by taking into account both spatial and/or temporal aspects. It is possible to differentiate between objects moving on the same path, but with different speeds. Based on these measures, we build models of trajectories representing the common behavior of objects, so that we can identify those that are abnormal.We noticed that the tracking yields bad results, especially in crowd situations. Therefore, we use the optical flow vectors to build a movement model based on a codebook. This model stores the preferred movement directions for each pixel. It is possible to identify abnormal movement at pixel-level, without having to use a tracker. By using temporal coherence, we can further improve the detection rate, affected by errors of estimation of optic flow. In a second step, we change the method of construction of this model. With the new approach, we can extract higher-level features — the equivalent trajectories, but still without the notion of object tracking. In this situation, we can reuse partial trajectory analysis to detect rare events.All aspects presented in this study have been implemented. In addition, we have design some applications, like predicting the trajectories of visible objects or storing and retrieving tracked objects in a database
APA, Harvard, Vancouver, ISO, and other styles
36

Barthelemy, Quentin. "Représentations parcimonieuses pour les signaux multivariés." Thesis, Grenoble, 2013. http://www.theses.fr/2013GRENU008/document.

Full text
Abstract:
Dans cette thèse, nous étudions les méthodes d'approximation et d'apprentissage qui fournissent des représentations parcimonieuses. Ces méthodes permettent d'analyser des bases de données très redondantes à l'aide de dictionnaires d'atomes appris. Etant adaptés aux données étudiées, ils sont plus performants en qualité de représentation que les dictionnaires classiques dont les atomes sont définis analytiquement. Nous considérons plus particulièrement des signaux multivariés résultant de l'acquisition simultanée de plusieurs grandeurs, comme les signaux EEG ou les signaux de mouvements 2D et 3D. Nous étendons les méthodes de représentations parcimonieuses au modèle multivarié, pour prendre en compte les interactions entre les différentes composantes acquises simultanément. Ce modèle est plus flexible que l'habituel modèle multicanal qui impose une hypothèse de rang 1. Nous étudions des modèles de représentations invariantes : invariance par translation temporelle, invariance par rotation, etc. En ajoutant des degrés de liberté supplémentaires, chaque noyau est potentiellement démultiplié en une famille d'atomes, translatés à tous les échantillons, tournés dans toutes les orientations, etc. Ainsi, un dictionnaire de noyaux invariants génère un dictionnaire d'atomes très redondant, et donc idéal pour représenter les données étudiées redondantes. Toutes ces invariances nécessitent la mise en place de méthodes adaptées à ces modèles. L'invariance par translation temporelle est une propriété incontournable pour l'étude de signaux temporels ayant une variabilité temporelle naturelle. Dans le cas de l'invariance par rotation 2D et 3D, nous constatons l'efficacité de l'approche non-orientée sur celle orientée, même dans le cas où les données ne sont pas tournées. En effet, le modèle non-orienté permet de détecter les invariants des données et assure la robustesse à la rotation quand les données tournent. Nous constatons aussi la reproductibilité des décompositions parcimonieuses sur un dictionnaire appris. Cette propriété générative s'explique par le fait que l'apprentissage de dictionnaire est une généralisation des K-means. D'autre part, nos représentations possèdent de nombreuses invariances, ce qui est idéal pour faire de la classification. Nous étudions donc comment effectuer une classification adaptée au modèle d'invariance par translation, en utilisant des fonctions de groupement consistantes par translation
In this thesis, we study approximation and learning methods which provide sparse representations. These methods allow to analyze very redundant data-bases thanks to learned atoms dictionaries. Being adapted to studied data, they are more efficient in representation quality than classical dictionaries with atoms defined analytically. We consider more particularly multivariate signals coming from the simultaneous acquisition of several quantities, as EEG signals or 2D and 3D motion signals. We extend sparse representation methods to the multivariate model, to take into account interactions between the different components acquired simultaneously. This model is more flexible that the common multichannel one which imposes a hypothesis of rank 1. We study models of invariant representations: invariance to temporal shift, invariance to rotation, etc. Adding supplementary degrees of freedom, each kernel is potentially replicated in an atoms family, translated at all samples, rotated at all orientations, etc. So, a dictionary of invariant kernels generates a very redundant atoms dictionary, thus ideal to represent the redundant studied data. All these invariances require methods adapted to these models. Temporal shift-invariance is an essential property for the study of temporal signals having a natural temporal variability. In the 2D and 3D rotation invariant case, we observe the efficiency of the non-oriented approach over the oriented one, even when data are not revolved. Indeed, the non-oriented model allows to detect data invariants and assures the robustness to rotation when data are revolved. We also observe the reproducibility of the sparse decompositions on a learned dictionary. This generative property is due to the fact that dictionary learning is a generalization of K-means. Moreover, our representations have many invariances that is ideal to make classification. We thus study how to perform a classification adapted to the shift-invariant model, using shift-consistent pooling functions
APA, Harvard, Vancouver, ISO, and other styles
37

Hugueney, Bernard. "Représentations symboliques de longues séries temporelles." Paris 6, 2003. http://www.theses.fr/2003PA066161.

Full text
APA, Harvard, Vancouver, ISO, and other styles
38

Kaâniche, Mohamed-Bécha. "Reconnaissance de gestes à partir de séquences vidéos." Phd thesis, Université de Nice Sophia-Antipolis, 2009. http://tel.archives-ouvertes.fr/tel-00428690.

Full text
Abstract:
Dans cette thèse, nous voulons reconnaître les gestes (par ex. lever la main) et plus généralement les actions brèves (par ex. tomber, se baisser) effectués par un individu. De nombreux travaux ont été proposés afin de reconnaître des gestes dans un contexte précis (par ex. en laboratoire) à l'aide d'une multiplicité de capteurs (par ex. réseaux de cameras ou individu observé muni de marqueurs). Malgré ces hypothèses simplificatrices, la reconnaissance de gestes reste souvent ambigüe en fonction de la position de l'individu par rapport aux caméras. Nous proposons de réduire ces hypothèses afin de concevoir un algorithme général permettant de reconnaître des gestes d'un individu évoluant dans un environnement quelconque et observé à l'aide d'un nombre réduit de caméras. Il s'agit d'estimer la vraisemblance de la reconnaissance des gestes en fonction des conditions d'observation. Notre méthode consiste à classifier un ensemble de gestes à partir de l'apprentissage de descripteurs de mouvement. Les descripteurs de mouvement sont des signatures locales du mouvement de points d'intérêt associés aux descriptions locales de la texture du voisinage des points considérés. L'approche a été validée sur les bases de données de gestes publiques KTH et IXMAS; des résultats encourageants ont été obtenus.
APA, Harvard, Vancouver, ISO, and other styles
39

Delanoy, Johanna. "Interprétation et génération de représentations artistiques : applications à la modélisation par le dessin et à la stylisation de vidéos." Thesis, Université Côte d'Azur (ComUE), 2019. http://www.theses.fr/2019AZUR4036.

Full text
Abstract:
Les outils digitaux ouvrent de nouvelles voies de création, aussi bien pour les artistes chevronnés que pour tout autre individu qui souhaite créer. Dans cette thèse, je m'intéresse à deux aspects complémentaires de ces outils : interpréter une création existante et générer du nouveau contenu. Dans une première partie, j'étudie comment interpréter un dessin comme un objet 3D. Nous proposons une approche basée donnée qui aborde cette problématique en entrainant des réseaux convolutifs profonds (CNN) à prédire l'occupation d'une grille de voxels à partir de dessins. Nous intégrons ces CNNs dans un système de modélisation interactif qui permet à l’utilisateur de dessiner un objet, tourner autour pour voir sa reconstruction 3D et le raffiner en redessinant depuis une nouvelle vue. Nous complémentons cette approche par une méthode géométrique qui permet d’améliorer la qualité de l'objet final. Pour cela, nous entrainons un CNN à prédire des cartes de normales à plus haute résolution depuis chaque vue d'entrée. Nous fusionnons alors ces cartes de normales avec la grille de voxel en optimisant pour la surface finale. Nous entrainons l'ensemble de ces réseaux grâce à des rendus de contours d'objets abstraits générés procéduralement. Dans une seconde partie, je présente une méthode pour générer des vidéos stylisées faisant penser à de l'animation traditionnelle. La plupart des méthodes existantes gardent le mouvement 3D originel de la vidéo, produisant un résultat ressemblant plus à une scène 3D couverte de peinture qu'à une peinture 2D de la scène. Inspirés par l'animation "cut-out", nous proposons de modifier le mouvement de la séquence afin qu'il soit composé de mouvements rigides en 2D. Pour y parvenir, notre approche segmente le mouvement et l'optimise afin d'approximer au mieux le flot optique d'entrée avec des transformations rigides par morceaux, et re-rend la vidéo de façon à ce que son contenu suive ce mouvement simplifié. En appliquant les méthodes de stylisations existantes sur notre nouvelle séquence, on obtient une vidéo stylisée plus proche d'une animation 2D. Ces deux parties reposent sur des méthodes différentes mais toutes deux s'appuient sur les techniques traditionnelles utilisées par les artistes : soit en comprenant comment ils dessinent un objet, soit en s'inspirant de leur façon de simplifier le mouvement
Digital tools brings new ways of creation, for accomplished artists as well as for any individual willing to create. In this thesis, I am interested in two different aspects in helping artists: interpreting their creation and generating new content. I first study how to interpret a sketch as a 3D object. We propose a data-driven approach that tackles this challenge by training deep convolutional neural networks (CNN) to predict occupancy of a voxel grid from a line drawing. We integrate our CNNs in an interactive modeling system that allows users to seamlessly draw an object, rotate it to see its 3D reconstruction, and refine it by re-drawing from another vantage point using the 3D reconstruction as guidance. We then complement this technique with a geometric method that allows to refine the quality of the final object. To do so, we train an additional CNN to predict higher resolution normal maps from each input view. We then fuse these normal maps with the voxel grid prediction by optimizing for the final surface. We train all of these networks by rendering synthetic contour drawings from procedurally generated abstract shapes. In a second part, I present a method to generate stylized videos with a look reminiscent of traditional 2D animation. Existing stylization methods often retain the 3D motion of the original video, making the result look like a 3D scene covered in paint rather than a 2D painting of a scene. Inspired by cut-out animation, we propose to modify the motion of the sequence so that it is composed of 2D rigid motions. To achieve this goal, our approach applies motion segmentation and optimization to best approximate the input optical flow with piecewise-rigid transforms, and re-renders the video such that its content follows the simplified motion. Applying existing stylization algorithm to the new sequence produce a stylized video more similar to 2D animation. Although the two parts of my thesis lean on different methods, they both rely on traditional techniques used by artists: either by understanding how they draw objects or by taking inspiration from how they simplify the motion in 2D animation
APA, Harvard, Vancouver, ISO, and other styles
40

Negin, Farhood. "Vers une reconnaissance des activités humaines non supervisées et des gestes dans les vidéos." Thesis, Université Côte d'Azur (ComUE), 2018. http://www.theses.fr/2018AZUR4246/document.

Full text
Abstract:
L’objectif principal de cette thèse est de proposer un framework complet pour une découverte, modélisation et reconnaissance automatiques des activités humaines dans les vidéos. Afin de modéliser et de reconnaître des activités dans des vidéos à long terme, nous proposons aussi un framework qui combine des informations perceptuelles globales et locales issues de la scène, et qui construit, en conséquence, des modèles d’activités hiérarchiques. Dans la première catégorie du framework, un classificateur supervisé basé sur le vecteur de Fisher est formé et les étiquettes sémantiques prédites sont intégrées dans les modèles hiérarchiques construits. Dans la seconde catégorie, pour avoir un framework complètement non supervisé, plutôt que d’incorporer les étiquettes sémantiques, les codes visuels formés sont stockés dans les modèles. Nous évaluons les frameworks sur deux ensembles de données réalistes sur les activités de la vie quotidienne enregistrées auprés des patients dans un environnement hospitalier. Pour modéliser des mouvements fins du corps humain, nous proposons quatre différents frameworks de reconnaissance de gestes où chaque framework accepte une ou une combinaison de différentes modalités de données en entrée. Nous évaluons les frameworks développés dans le contexte du test de diagnostic médical, appelé Praxis. Nous proposons un nouveau défi dans la reconnaissance gestuelle qui consiste à obtenir une opinion objective sur les performances correctes et incorrectes de gestes très similaires. Les expériences montrent l’efficacité de notre approche basée sur l’apprentissage en profondeur dans la reconnaissance des gestes et les tâches d’évaluation de la performance
The main goal of this thesis is to propose a complete framework for automatic discovery, modeling and recognition of human activities in videos. In order to model and recognize activities in long-term videos, we propose a framework that combines global and local perceptual information from the scene and accordingly constructs hierarchical activity models. In the first variation of the framework, a supervised classifier based on Fisher vector is trained and the predicted semantic labels are embedded in the constructed hierarchical models. In the second variation, to have a completely unsupervised framework, rather than embedding the semantic labels, the trained visual codebooks are stored in the models. Finally, we evaluate the proposed frameworks on two realistic Activities of Daily Living datasets recorded from patients in a hospital environment. Furthermore, to model fine motions of human body, we propose four different gesture recognition frameworks where each framework accepts one or combination of different data modalities as input. We evaluate the developed frameworks in the context of medical diagnostic test namely Praxis. Praxis test is a gesture-based diagnostic test, which has been accepted as a diagnostically indicative of cortical pathologies such as Alzheimer’s disease. We suggest a new challenge in gesture recognition, which is to obtain an objective opinion about correct and incorrect performances of very similar gestures. The experiments show effectiveness of our deep learning based approach in gesture recognition and performance assessment tasks
APA, Harvard, Vancouver, ISO, and other styles
41

Isaac, Yoann. "Représentations redondantes pour les signaux d’électroencéphalographie." Thesis, Paris 11, 2015. http://www.theses.fr/2015PA112072/document.

Full text
Abstract:
L’électroencéphalographie permet de mesurer l’activité du cerveau à partir des variations du champ électrique à la surface du crâne. Cette mesure est utilisée pour le diagnostic médical, la compréhension du fonctionnement du cerveau ou dans les systèmes d’interface cerveau-machine. De nombreux travaux se sont attachés au développement de méthodes d’analyse de ces signaux en vue d’en extraire différentes composantes d’intérêt, néanmoins leur traitement pose encore de nombreux problèmes. Cette thèse s’intéresse à la mise en place de méthodes permettant l’obtention de représentations redondantes pour ces signaux. Ces représentations se sont avérées particulièrement efficaces ces dernières années pour la description de nombreuses classes de signaux grâce à leur grande flexibilité. L’obtention de telles représentations pour les mesures EEG présente certaines difficultés du fait d’un faible rapport signal à bruit des composantes recherchées. Nous proposons dans cette thèse de les surmonter en guidant les méthodes considérées vers des représentations physiologiquement plausibles des signaux EEG à l’aide de régularisations. Ces dernières sont construites à partir de connaissances a priori sur les propriétés spatiales et temporelles de ces signaux. Pour chacune d’entre elles, des algorithmes sont proposés afin de résoudre les problèmes d’optimisation associés à l’obtention de ces représentations. L’évaluation des approches proposées sur des signaux EEG souligne l’efficacité des régularisations proposées et l’intérêt des représentations obtenues
The electroencephalography measures the brain activity by recording variations of the electric field on the surface of the skull. This measurement is usefull in various applications like medical diagnosis, analysis of brain functionning or whithin brain-computer interfaces. Numerous studies have tried to develop methods for analyzing these signals in order to extract various components of interest, however, none of them allows to extract them with sufficient reliabilty. This thesis focuses on the development of approaches considering redundant (overcomoplete) representations for these signals. During the last years, these representations have been shown particularly efficient to describe various classes of signals due to their flexibility. Obtaining such representations for EEG presents some difficuties due to the low signal-to-noise ratio of these signals. We propose in this study to overcome them by guiding the methods considered to physiologically plausible representations thanks to well-suited regularizations. These regularizations are built from prior knowledge about the spatial and temporal properties of these signals. For each regularization, an algorithm is proposed to solve the optimization problem allowing to obtain the targeted representations. The evaluation of the proposed EEG signals approaches highlights their effectiveness in representing them
APA, Harvard, Vancouver, ISO, and other styles
42

Maâmatou, Houda. "Apprentissage semi-supervisé pour la détection multi-objets dans des séquences vidéos : Application à l'analyse de flux urbains." Thesis, Université Clermont Auvergne‎ (2017-2020), 2017. http://www.theses.fr/2017CLFAC015/document.

Full text
Abstract:
Depuis les années 2000, un progrès significatif est enregistré dans les travaux de recherche qui proposent l’apprentissage de détecteurs d’objets sur des grandes bases de données étiquetées manuellement et disponibles publiquement. Cependant, lorsqu’un détecteur générique d’objets est appliqué sur des images issues d’une scène spécifique les performances de détection diminuent considérablement. Cette diminution peut être expliquée par les différences entre les échantillons de test et ceux d’apprentissage au niveau des points de vues prises par la(les) caméra(s), de la résolution, de l’éclairage et du fond des images. De plus, l’évolution de la capacité de stockage des systèmes informatiques, la démocratisation de la "vidéo-surveillance" et le développement d’outils d’analyse automatique des données vidéos encouragent la recherche dans le domaine du trafic routier. Les buts ultimes sont l’évaluation des demandes de gestion du trafic actuelles et futures, le développement des infrastructures routières en se basant sur les besoins réels, l’intervention pour une maintenance à temps et la surveillance des routes en continu. Par ailleurs, l’analyse de trafic est une problématique dans laquelle plusieurs verrous scientifiques restent à lever. Ces derniers sont dus à une grande variété dans la fluidité de trafic, aux différents types d’usagers, ainsi qu’aux multiples conditions météorologiques et lumineuses. Ainsi le développement d’outils automatiques et temps réel pour l’analyse vidéo de trafic routier est devenu indispensable. Ces outils doivent permettre la récupération d’informations riches sur le trafic à partir de la séquence vidéo et doivent être précis et faciles à utiliser. C’est dans ce contexte que s’insèrent nos travaux de thèse qui proposent d’utiliser les connaissances antérieurement acquises et de les combiner avec des informations provenant de la nouvelle scène pour spécialiser un détecteur d’objet aux nouvelles situations de la scène cible. Dans cette thèse, nous proposons de spécialiser automatiquement un classifieur/détecteur générique d’objets à une scène de trafic routier surveillée par une caméra fixe. Nous présentons principalement deux contributions. La première est une formalisation originale de transfert d’apprentissage transductif à base d’un filtre séquentiel de type Monte Carlo pour la spécialisation automatique d’un classifieur. Cette formalisation approxime itérativement la distribution cible inconnue au départ, comme étant un ensemble d’échantillons de la base spécialisée à la scène cible. Les échantillons de cette dernière sont sélectionnés à la fois à partir de la base source et de la scène cible moyennant une pondération qui utilise certaines informations a priori sur la scène. La base spécialisée obtenue permet d’entraîner un classifieur spécialisé à la scène cible sans intervention humaine. La deuxième contribution consiste à proposer deux stratégies d’observation pour l’étape mise à jour du filtre SMC. Ces stratégies sont à la base d’un ensemble d’indices spatio-temporels spécifiques à la scène de vidéo-surveillance. Elles sont utilisées pour la pondération des échantillons cibles. Les différentes expérimentations réalisées ont montré que l’approche de spécialisation proposée est performante et générique. Nous avons pu y intégrer de multiples stratégies d’observation. Elle peut être aussi appliquée à tout type de classifieur. De plus, nous avons implémenté dans le logiciel OD SOFT de Logiroad les possibilités de chargement et d’utilisation d’un détecteur fourni par notre approche. Nous avons montré également les avantages des détecteurs spécialisés en comparant leurs résultats avec celui de la méthode Vu-mètre de Logiroad
Since 2000, a significant progress has been recorded in research work which has proposed to learn object detectors using large manually labeled and publicly available databases. However, when a generic object detector is applied on images of a specific scene, the detection performances will decrease considerably. This decrease may be explained by the differences between the test samples and the learning ones at viewpoints taken by camera(s), resolution, illumination and background images. In addition, the storage capacity evolution of computer systems, the "video surveillance" democratization and the development of automatic video-data analysis tools have encouraged research into the road-traffic domain. The ultimate aims are the management evaluation of current and future trafic requests, the road infrastructures development based on real necessities, the intervention of maintenance task in time and the continuous road surveillance. Moreover, traffic analysis is a problematicness where several scientific locks should be lifted. These latter are due to a great variety of traffic fluidity, various types of users, as well multiple weather and lighting conditions. Thus, developing automatic and real-time tools to analyse road-traffic videos has become an indispensable task. These tools should allow retrieving rich data concerning the traffic from the video sequence and they must be precise and easy to use. This is the context of our thesis work which proposes to use previous knowledges and to combine it with information extracted from the new scene to specialize an object detector to the new situations of the target scene. In this thesis, we propose to automatically specialize a generic object classifier/detector to a road traffic scene surveilled by a fixed camera. We mainly present two contributions. The first one is an original formalization of Transductive Transfer Learning based on a sequential Monte Carlo filter for automatic classifier specialization. This formalization approximates iteratively the previously unknown target distribution as a set of samples composing the specialized dataset of the target scene. The samples of this dataset are selected from both source dataset and target scene further to a weighting step using some prior information on the scene. The obtained specialized dataset allows training a specialized classifier to the target scene without human intervention. The second contribution consists in proposing two observation strategies to be used in the SMC filter’s update step. These strategies are based on a set of specific spatio-temporal cues of the video surveillance scene. They are used to weight the target samples. The different experiments carried out have shown that the proposed specialization approach is efficient and generic. We have been able to integrate multiple observation strategies. It can also be applied to any classifier / detector. In addition, we have implemented into the Logiroad OD SOFT software the loading and utilizing possibilities of a detector provided by our approach. We have also shown the advantages of the specialized detectors by comparing their results to the result of Logiroad’s Vu-meter method
APA, Harvard, Vancouver, ISO, and other styles
43

Potapov, Danila. "Supervised Learning Approaches for Automatic Structuring of Videos." Thesis, Université Grenoble Alpes (ComUE), 2015. http://www.theses.fr/2015GREAM023/document.

Full text
Abstract:
L'Interprétation automatique de vidéos est un horizon qui demeure difficile a atteindre en utilisant les approches actuelles de vision par ordinateur. Une des principales difficultés est d'aller au-delà des descripteurs visuels actuels (de même que pour les autres modalités, audio, textuelle, etc) pour pouvoir mettre en oeuvre des algorithmes qui permettraient de reconnaitre automatiquement des sections de vidéos, potentiellement longues, dont le contenu appartient à une certaine catégorie définie de manière sémantique. Un exemple d'une telle section de vidéo serait une séquence ou une personne serait en train de pêcher; un autre exemple serait une dispute entre le héros et le méchant dans un film d'action hollywoodien. Dans ce manuscrit, nous présentons plusieurs contributions qui vont dans le sens de cet objectif ambitieux, en nous concentrant sur trois tâches d'analyse de vidéos: le résumé automatique, la classification, la localisation temporelle.Tout d'abord, nous introduisons une approche pour le résumé automatique de vidéos, qui fournit un résumé de courte durée et informatif de vidéos pouvant être très longues, résumé qui est de plus adapté à la catégorie de vidéos considérée. Nous introduisons également une nouvelle base de vidéos pour l'évaluation de méthodes de résumé automatique, appelé MED-Summaries, ou chaque plan est annoté avec un score d'importance, ainsi qu'un ensemble de programmes informatiques pour le calcul des métriques d'évaluation.Deuxièmement, nous introduisons une nouvelle base de films de cinéma annotés, appelée Inria Action Movies, constitué de films d'action hollywoodiens, dont les plans sont annotés suivant des catégories sémantiques non-exclusives, dont la définition est suffisamment large pour couvrir l'ensemble du film. Un exemple de catégorie est "course-poursuite"; un autre exemple est "scène sentimentale". Nous proposons une approche pour localiser les sections de vidéos appartenant à chaque catégorie et apprendre les dépendances temporelles entre les occurrences de chaque catégorie.Troisièmement, nous décrivons les différentes versions du système développé pour la compétition de détection d'événement vidéo TRECVID Multimédia Event Detection, entre 2011 et 2014, en soulignant les composantes du système dont l'auteur du manuscrit était responsable
Automatic interpretation and understanding of videos still remains at the frontier of computer vision. The core challenge is to lift the expressive power of the current visual features (as well as features from other modalities, such as audio or text) to be able to automatically recognize typical video sections, with low temporal saliency yet high semantic expression. Examples of such long events include video sections where someone is fishing (TRECVID Multimedia Event Detection), or where the hero argues with a villain in a Hollywood action movie (Inria Action Movies). In this manuscript, we present several contributions towards this goal, focusing on three video analysis tasks: summarization, classification, localisation.First, we propose an automatic video summarization method, yielding a short and highly informative video summary of potentially long videos, tailored for specified categories of videos. We also introduce a new dataset for evaluation of video summarization methods, called MED-Summaries, which contains complete importance-scorings annotations of the videos, along with a complete set of evaluation tools.Second, we introduce a new dataset, called Inria Action Movies, consisting of long movies, and annotated with non-exclusive semantic categories (called beat-categories), whose definition is broad enough to cover most of the movie footage. Categories such as "pursuit" or "romance" in action movies are examples of beat-categories. We propose an approach for localizing beat-events based on classifying shots into beat-categories and learning the temporal constraints between shots.Third, we overview the Inria event classification system developed within the TRECVID Multimedia Event Detection competition and highlight the contributions made during the work on this thesis from 2011 to 2014
APA, Harvard, Vancouver, ISO, and other styles
44

Barthélemy, Quentin. "Représentations parcimonieuses pour les signaux multivariés." Phd thesis, Université de Grenoble, 2013. http://tel.archives-ouvertes.fr/tel-00853362.

Full text
Abstract:
Dans cette thèse, nous étudions les méthodes d'approximation et d'apprentissage qui fournissent des représentations parcimonieuses. Ces méthodes permettent d'analyser des bases de données très redondantes à l'aide de dictionnaires d'atomes appris. Etant adaptés aux données étudiées, ils sont plus performants en qualité de représentation que les dictionnaires classiques dont les atomes sont définis analytiquement. Nous considérons plus particulièrement des signaux multivariés résultant de l'acquisition simultanée de plusieurs grandeurs, comme les signaux EEG ou les signaux de mouvements 2D et 3D. Nous étendons les méthodes de représentations parcimonieuses au modèle multivarié, pour prendre en compte les interactions entre les différentes composantes acquises simultanément. Ce modèle est plus flexible que l'habituel modèle multicanal qui impose une hypothèse de rang 1. Nous étudions des modèles de représentations invariantes : invariance par translation temporelle, invariance par rotation, etc. En ajoutant des degrés de liberté supplémentaires, chaque noyau est potentiellement démultiplié en une famille d'atomes, translatés à tous les échantillons, tournés dans toutes les orientations, etc. Ainsi, un dictionnaire de noyaux invariants génère un dictionnaire d'atomes très redondant, et donc idéal pour représenter les données étudiées redondantes. Toutes ces invariances nécessitent la mise en place de méthodes adaptées à ces modèles. L'invariance par translation temporelle est une propriété incontournable pour l'étude de signaux temporels ayant une variabilité temporelle naturelle. Dans le cas de l'invariance par rotation 2D et 3D, nous constatons l'efficacité de l'approche non-orientée sur celle orientée, même dans le cas où les données ne sont pas tournées. En effet, le modèle non-orienté permet de détecter les invariants des données et assure la robustesse à la rotation quand les données tournent. Nous constatons aussi la reproductibilité des décompositions parcimonieuses sur un dictionnaire appris. Cette propriété générative s'explique par le fait que l'apprentissage de dictionnaire est une généralisation des K-means. D'autre part, nos représentations possèdent de nombreuses invariances, ce qui est idéal pour faire de la classification. Nous étudions donc comment effectuer une classification adaptée au modèle d'invariance par translation, en utilisant des fonctions de groupement consistantes par translation.
APA, Harvard, Vancouver, ISO, and other styles
45

Thomas, Hugues. "Apprentissage de nouvelles représentations pour la sémantisation de nuages de points 3D." Thesis, Paris Sciences et Lettres (ComUE), 2019. http://www.theses.fr/2019PSLEM048/document.

Full text
Abstract:
Aujourd’hui, de nouvelles technologies permettent l’acquisition de scènes 3D volumineuses et précises sous la forme de nuages de points. Les nouvelles applications ouvertes par ces technologies, comme les véhicules autonomes ou la maintenance d'infrastructure, reposent sur un traitement efficace des nuages de points à grande échelle. Les méthodes d'apprentissage profond par convolution ne peuvent pas être utilisées directement avec des nuages de points. Dans le cas des images, les filtres convolutifs ont permis l’apprentissage de nouvelles représentations, jusqu’alors construites « à la main » dans les méthodes de vision par ordinateur plus anciennes. En suivant le même raisonnement, nous présentons dans cette thèse une étude des représentations construites « à la main » utilisées pour le traitement des nuages de points. Nous proposons ainsi plusieurs contributions, qui serviront de base à la conception d’une nouvelle représentation convolutive pour le traitement des nuages de points. Parmi elles, une nouvelle définition de voisinages sphériques multi-échelles, une comparaison avec les k plus proches voisins multi-échelles, une nouvelle stratégie d'apprentissage actif, la segmentation sémantique des nuages de points à grande échelle, et une étude de l'influence de la densité dans les représentations multi-échelles. En se basant sur ces contributions, nous introduisons la « Kernel Point Convolution » (KPConv), qui utilise des voisinages sphériques et un noyau défini par des points. Ces points jouent le même rôle que les pixels du noyau des convolutions en image. Nos réseaux convolutionnels surpassent les approches de segmentation sémantique de l’état de l’art dans presque toutes les situations. En plus de ces résultats probants, nous avons conçu KPConv avec une grande flexibilité et une version déformable. Pour conclure notre réflexion, nous proposons plusieurs éclairages sur les représentations que notre méthode est capable d'apprendre
In the recent years, new technologies have allowed the acquisition of large and precise 3D scenes as point clouds. They have opened up new applications like self-driving vehicles or infrastructure monitoring that rely on efficient large scale point cloud processing. Convolutional deep learning methods cannot be directly used with point clouds. In the case of images, convolutional filters brought the ability to learn new representations, which were previously hand-crafted in older computer vision methods. Following the same line of thought, we present in this thesis a study of hand-crafted representations previously used for point cloud processing. We propose several contributions, to serve as basis for the design of a new convolutional representation for point cloud processing. They include a new definition of multiscale radius neighborhood, a comparison with multiscale k-nearest neighbors, a new active learning strategy, the semantic segmentation of large scale point clouds, and a study of the influence of density in multiscale representations. Following these contributions, we introduce the Kernel Point Convolution (KPConv), which uses radius neighborhoods and a set of kernel points to play the role of the kernel pixels in image convolution. Our convolutional networks outperform state-of-the-art semantic segmentation approaches in almost any situation. In addition to these strong results, we designed KPConv with a great flexibility and a deformable version. To conclude our argumentation, we propose several insights on the representations that our method is able to learn
APA, Harvard, Vancouver, ISO, and other styles
46

Paquier, Williams. "Apprentissage ouvert de représentations et de fonctionalités en robotique : analyse, modèles et implémentation." Toulouse 3, 2004. http://www.theses.fr/2004TOU30233.

Full text
Abstract:
L'acquisition autonome de représentations et de fonctionnalités en robotique pose de nombreux problèmes théoriques. Aujourd'hui, les systèmes robotiques autonomes sont conçus autour d'un ensemble de fonctionnalités. Leurs représentations du monde sont issues de l’analyse d'un problème et d'une modélisation préalablement données par les concepteurs. Cette approche limite les capacités d'apprentissage. Nous proposons dans cette thèse un système ouvert de représentations et de fonctionnalités. Ce système apprend en expérimentant son environnement et est guidé par l’augmentation d’une fonction de valeur. L'objectif du système consiste à agir sur son environnement pour réactiver les représentations dont il avait appris une connotation positive. Une analyse de la capacité à généraliser la production d'actions appropriées pour ces réactivations conduit à définir un ensemble de propriétés nécessaires pour un tel système. Le système de représentation est constitué d'un réseau d'unités de traitement semblables et utilise un codage par position. Le sens de l'état d'une unité dépend de sa position dans le réseau. Ce système de représentation possède des similitudes avec le principe de numération par position. Une représentation correspond à l'activation d'un ensemble d'unités. Ce système a été implémenté dans une suite logicielle appelée NeuSter qui permet de simuler des réseaux de plusieurs millions d'unités et milliard de connexions sur des grappes hétérogènes de machines POSIX. Les premiers résultats permettent de valider les contraintes déduites de l'analyse. Un tel système permet d'apprendre dans un même réseau, de façon hiérarchique et non supervisée, des détecteurs de bords et de traits, de coins, de terminaisons de traits, de visages, de directions de mouvement, de rotations, d'expansions, et de phonèmes. NeuSter apprend en ligne en utilisant uniquement les données de ses capteurs. Il a été testé sur des robots mobiles pour l'apprentissage et le suivi d'objets
Autonomous acquisition of representations and functionalities by a machine address several theoretical questions. Today’s autonomous robots are developed around a set of functionalities. Their representations of the world are deduced from the analysis and modeling of a given problem, and are initially given by the developers. This limits the learning capabilities of robots. In this thesis, we propose an approach and a system able to build open-ended representation and functionalities. This system learns through its experimentations of the environment and aims to augment a value function. Its objective consists in acting to reactivate the representations it has already learnt to connote positively. An analysis of the generalization capabilities to produce appropriate actions enable define a minimal set of properties needed by such a system. The open-ended representation system is composed of a network of homogeneous processing units and is based on position coding. The meaning of a processing unit depends on its position in the global network. This representation system presents similarities with the principle of numeration by position. A representation is given by a set of active units. This system is implemented in a suite of software called NeuSter, which is able to simulate million unit networks with billions of connections on heterogeneous clusters of POSIX machines. .
APA, Harvard, Vancouver, ISO, and other styles
47

Caron, Stéphane. "Détection d'anomalies basée sur les représentations latentes d'un autoencodeur variationnel." Master's thesis, Université Laval, 2021. http://hdl.handle.net/20.500.11794/69185.

Full text
Abstract:
Dans ce mémoire, nous proposons une méthodologie qui permet de détecter des anomalies parmi un ensemble de données complexes, plus particulièrement des images. Pour y arriver, nous utilisons un type spécifique de réseau de neurones, soit un autoencodeur variationnel (VAE). Cette approche non-supervisée d'apprentissage profond nous permet d'obtenir une représentation plus simple de nos données sur laquelle nous appliquerons une mesure de distance de Kullback-Leibler nous permettant de discriminer les anomalies des observations "normales". Pour déterminer si une image nous apparaît comme "anormale", notre approche se base sur une proportion d'observations à filtrer, ce qui est plus simple et intuitif à établir qu'un seuil sur la valeur même de la distance. En utilisant notre méthodologie sur des images réelles, nous avons démontré que nous pouvons obtenir des performances de détection d'anomalies supérieures en termes d'aire sous la courbe ROC, de précision et de rappel par rapport à d'autres approches non-supervisées. De plus, nous avons montré que la simplicité de l'approche par niveau de filtration permet d'adapter facilement la méthode à des jeux de données ayant différents niveaux de contamination d'anomalies.
In this master's thesis, we propose a methodology that aims to detect anomalies among complex data, such as images. In order to do that, we use a specific type of neural network called the varitionnal autoencoder (VAE). This non-supervised deep learning approach allows us to obtain a simple representation of our data on which we then use the Kullback-Leibler distance to discriminate between anomalies and "normal" observations. To determine if an image should be considered "abnormal", our approach is based on a proportion of observations to be filtered, which is easier and more intuitive to establish than applying a threshold based on the value of a distance metric. By using our methodology on real complex images, we can obtain superior anomaly detection performances in terms of area under the ROC curve (AUC),precision and recall compared to other non-supervised methods. Moreover, we demonstrate that the simplicity of our filtration level allows us to easily adapt the method to datasets having different levels of anomaly contamination.
APA, Harvard, Vancouver, ISO, and other styles
48

Gaillard, Audrey. "Développement des représentations conceptuelles chez l'enfant : une approche transversale." Paris 8, 2011. http://www.theses.fr/2011PA083972.

Full text
Abstract:
Ces dernières années, de nombreuses études en psychologie du développement ont porté sur la formation des concepts chez les enfants, et notamment sur la catégorisation d'objets. Ce travail de thèse a visé, dans un premier temps, à étudier l’influence de différents facteurs contextuels (consigne expérimentale, nombre de séances, nature de la catégorie de noms d’objets) sur la stabilité des représentations étudiées avec une tâche de classement de noms d’objets et une tâche de production de propriétés, et ce chez l’adulte Dans un second temps, nous avons étudié les représentations conceptuelles chez l’enfant. Ainsi, nous sommes-nous attachés à analyser l'organisation catégorielle de noms d'objets divers et sa stabilité temporelle chez l'enfant âgé de 6 à 11 ans en fonction de différents facteurs : l'âge des enfants, la tâche expérimentale et la nature des noms d'objets proposés. L’ensemble de nos résultats démontre l’influence notable de la tâche sur la stabilité temporelle des représentations, tant chez l’adulte que l’enfant. Ainsi, plus que les facteurs contextuels testés (consigne, séances, nature des catégories d’objets), il semble que ce soit le type de tâche qui induise la variabilité. Chez l'enfant, nos résultats mettent en évidence l'influence de la nature des catégories de noms d'objets (naturels/fabriqués) et de l'âge des enfants sur la stabilité des représentations mises au jour. Nos résultats sont discutés au regard des théories de la catégorisation et du développement conceptuel
In recent years, many studies in developmental psychology have focused on concept formation in children, i. E. Object categorization. This thesis aimed, first, to study the influence of several contextual factors (experimental instructions, number of repetitions, category membership) on representation stability studied with sorting task and property-generation production task with adult participants. In the second time, in order to study conceptual representations in children, we analyzed the categorical organization of various objects names and its temporal stability in children aged from 6 to 11 years old according to different factors: children's age, experimental tasks and category membership. The set of our results shows the influence of the task on temporal stability of representations, both in adults than in children. Therefore, it seems to be the type of task that induces variability, not the contextual factors tested (instructions, repetitions, category membership). In, children, our results show that stability representations depends on the age and the category membership of objects (natural objects or artifacts). We discuss results compared to theories of categorization and conceptual development
APA, Harvard, Vancouver, ISO, and other styles
49

Bucher, Maxime. "Apprentissage et exploitation de représentations sémantiques pour la classification et la recherche d'images." Thesis, Normandie, 2018. http://www.theses.fr/2018NORMC250/document.

Full text
Abstract:
Dans cette thèse nous étudions différentes questions relatives à la mise en pratique de modèles d'apprentissage profond. En effet malgré les avancées prometteuses de ces algorithmes en vision par ordinateur, leur emploi dans certains cas d'usage réels reste difficile. Une première difficulté est, pour des tâches de classification d'images, de rassembler pour des milliers de catégories suffisamment de données d'entraînement pour chacune des classes. C'est pourquoi nous proposons deux nouvelles approches adaptées à ce scénario d'apprentissage, appelé <>.L'utilisation d'information sémantique pour modéliser les classes permet de définir les modèles par description, par opposition à une modélisation à partir d'un ensemble d'exemples, et rend possible la modélisation sans donnée de référence. L'idée fondamentale du premier chapitre est d'obtenir une distribution d'attributs optimale grâce à l'apprentissage d'une métrique, capable à la fois de sélectionner et de transformer la distribution des données originales. Dans le chapitre suivant, contrairement aux approches standards de la littérature qui reposent sur l'apprentissage d'un espace d'intégration commun, nous proposons de générer des caractéristiques visuelles à partir d'un générateur conditionnel. Une fois générés ces exemples artificiels peuvent être utilisés conjointement avec des données réelles pour l'apprentissage d'un classifieur discriminant. Dans une seconde partie de ce manuscrit, nous abordons la question de l'intelligibilité des calculs pour les tâches de vision par ordinateur. En raison des nombreuses et complexes transformations des algorithmes profonds, il est difficile pour un utilisateur d'interpréter le résultat retourné. Notre proposition est d'introduire un <> dans le processus de traitement. La représentation de l'image est exprimée entièrement en langage naturel, tout en conservant l'efficacité des représentations numériques. L'intelligibilité de la représentation permet à un utilisateur d'examiner sur quelle base l'inférence a été réalisée et ainsi d'accepter ou de rejeter la décision suivant sa connaissance et son expérience humaine
In this thesis, we examine some practical difficulties of deep learning models.Indeed, despite the promising results in computer vision, implementing them in some situations raises some questions. For example, in classification tasks where thousands of categories have to be recognised, it is sometimes difficult to gather enough training data for each category.We propose two new approaches for this learning scenario, called <>. We use semantic information to model classes which allows us to define models by description, as opposed to modelling from a set of examples.In the first chapter we propose to optimize a metric in order to transform the distribution of the original data and to obtain an optimal attribute distribution. In the following chapter, unlike the standard approaches of the literature that rely on the learning of a common integration space, we propose to generate visual features from a conditional generator. The artificial examples can be used in addition to real data for learning a discriminant classifier. In the second part of this thesis, we address the question of computational intelligibility for computer vision tasks. Due to the many and complex transformations of deep learning algorithms, it is difficult for a user to interpret the returned prediction. Our proposition is to introduce what we call a <> in the processing pipeline, which is a crossing point in which the representation of the image is entirely expressed with natural language, while retaining the efficiency of numerical representations. This semantic bottleneck allows to detect failure cases in the prediction process so as to accept or reject the decision
APA, Harvard, Vancouver, ISO, and other styles
50

Bourigault, Simon. "Apprentissage de représentations pour la prédiction de propagation d'information dans les réseaux sociaux." Thesis, Paris 6, 2016. http://www.theses.fr/2016PA066368/document.

Full text
Abstract:
Dans ce manuscrit, nous étudions la diffusion d'information dans les réseaux sociaux en ligne. Des sites comme Facebook ou Twitter sont en effet devenus aujourd'hui des media d'information à part entière, sur lesquels les utilisateurs échangent de grandes quantités de données. La plupart des modèles existant pour expliquer ce phénomène de diffusion sont des modèles génératifs, basés sur des hypothèses fortes concernant la structure et la dynamique temporelle de la diffusion d'information. Nous considérerons dans ce manuscrit le problème de la prédiction de diffusion dans le cas où le graphe social est inconnu, et où seules les actions des utilisateurs peuvent être observées. - Nous proposons, dans un premier temps, une méthode d'apprentissage du modèle independent cascade consistant à ne pas prendre en compte la dimension temporelle de la diffusion. Des résultats expérimentaux obtenus sur des données réelles montrent que cette approche permet d'obtenir un modèle plus performant et plus robuste. - Nous proposons ensuite plusieurs méthodes de prédiction de diffusion reposant sur des technique d'apprentissage de représentations. Celles-ci nous permettent de définir des modèles plus compacts, et plus robustes à la parcimonie des données. - Enfin, nous terminons en appliquant une approche similaire au problème de détection de source, consistant à retrouver l'utilisateur ayant lancé une rumeur sur un réseau social. En utilisant des méthodes d'apprentissage de représentations, nous obtenons pour cette tâche un modèle beaucoup plus rapide et performant que ceux de l'état de l'art
In this thesis, we study information diffusion in online social networks. Websites like Facebook or Twitter have indeed become information medias, on which users create and share a lot of data. Most existing models of the information diffusion phenomenon relies on strong hypothesis about the structure and dynamics of diffusion. In this document, we study the problem of diffusion prediction in the context where the social graph is unknown and only user actions are observed. - We propose a learning algorithm for the independant cascades model that does not take time into account. Experimental results show that this approach obtains better results than time-based learning schemes. - We then propose several representations learning methods for this task of diffusion prediction. This let us define more compact and faster models. - Finally, we apply our representation learning approach to the source detection task, where it obtains much better results than graph-based approaches
APA, Harvard, Vancouver, ISO, and other styles
We offer discounts on all premium plans for authors whose works are included in thematic literature selections. Contact us to get a unique promo code!

To the bibliography