Dissertations / Theses: 'Recherche d'images par contenu visuel'

1

Hoàng, Nguyen Vu. "Prise en compte des relations spatiales contextuelles dans la recherche d'images par contenu visuel." Paris 9, 2011. http://basepub.dauphine.fr/xmlui/handle/123456789/8202.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Cette thèse est consacrée à l'étude de méthodes de recherche par similarité des images dans une collection. Les images auxquelles nous nous intéressons sont quelconques, ce qui implique que les processus que nous utilisons doivent pouvoir s'exécuter sans être contraints par un quelconque modèle d'apparence visuelle. Nous nous sommes appuyés sur les relations spatiales entre les entités présentes dans les images qui peuvent être des objets symboliques ou des descripteurs visuels. La première partie de cette thèse est consacrée à une synthèse des techniques de relations spatiales. Dans la suite de cette étude, nous proposons notre approche Δ-TSR, notre première contribution, qui permet de faire une recherche par similarité de contenu visuel en utilisant les relations triangulaires entre les entités dans les images. Dans nos expériences, les entités sont des caractéristiques visuelles locales basées sur les points saillants représentés dans le modèle Bag-Of-Features. Cette approche améliore non seulement la qualité des images retournées mais aussi le temps d'exécution par rapport à des approches de la littérature. La seconde partie est dédiée à l'étude du contexte de l'image. L'ensemble des relations entre les entités dans une image permet de produire une description globale que nous appelons le contexte. La prise en compte des relations spatiales contextuelles dans la recherche par similarité des images pourraient permettre d'améliorer la qualité de recherche en limitant les fausses alarmes. Dans le cadre de notre travail, nous avons défini le contexte d'image par la présence des catégories d'entité et leurs relations spatiales dans l'image. Nous avons étudié les différentes relations entre les catégories d'entité d'une base d'images symboliques de contenu hétérogène. Cette étude statistique, notre deuxième contribution, nous permet de créer une cartographie de leurs relations spatiales. Elle peut être intégrée dans un graphe de connaissance des relations contextuelles, notre troisième contribution. Ce graphe permet de décrire de façon générale des connaissances sur les catégories d'entité. Le raisonnement spatial sur ce graphe de connaissance peut nous aider à améliorer les tâches dans le traitement d'image comme la détection et la localisation d'une catégorie à l'aide de la présence d'une autre référence. Pour la suite, ce modèle peut être appliqué à représenter le contexte d'une image. La recherche par similarité basée sur le contexte peut être réalisée par la comparaison de graphes. La similarité contextuelle des deux images est la similarité de leurs graphes. Ce travail a été évalué sur la base d'images symboliques LabelMe. Les expériences ont montré sa pertinence pour la recherche d'images par le contexte
This thesis is focused on the study of methods for image retrieval by visual content in collection of heterogeneous contents. We are interested in the description of spatial relationships between the entities present in the images that can be symbolic objects or visual primitives such as interest points. The first part of this thesis is dedicated to a state of the art on the description of spatial relationship techniques. As a result of this study, we propose the approach Δ-TSR, our first contribution, which allows similarity search based on visual content by using the triangular relationships between entities in images. In our experiments, the entities are local visual features based on salient points represented in a bag of features model. This approach improves not only the quality of the images retrieval but also the execution time in comparison with other approaches in the literature. The second part is dedicated to the study of the image context. The spatial relationships between entities in an image allow creating the global description of the image that we call the image context. Taking into account the contextual spatial relationships in the similarity search of images can allow improving the retrieval quality by limiting false alarms. We defined the context of image as the presence of entity categories and their spatial relationships in the image. We studied the relationships between different entity categories on LabelMe, a state of the art of symbolic images databases of heterogeneous content. This statistical study, our second contribution, allows creating a cartography of their spatial relationships. It can be integrated in a graph-based model of the contextual relationships, our third contribution. This graph describes the general knowledge of every entity categories. Spatial reasoning on this knowledge graph can help improving tasks of image processing such as detection and localization of an entity category by using the presence of another reference. Further, this model can be applied to represent the context of an image. The similarity search based on context can be achieved by comparing the graphs, then, contextual similarity between two images is evaluated by the similarity between their graphs. This work was evaluated on the symbolic image database of LabelMe. The experiments showed its relevance for image retrieval by context

2

Michaud, Dorian. "Indexation bio-inspirée pour la recherche d'images par similarité." Thesis, Poitiers, 2018. http://www.theses.fr/2018POIT2288/document.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

La recherche d'images basée sur le contenu visuel est un domaine très actif de la vision par ordinateur, car le nombre de bases d'images disponibles ne cesse d'augmenter.L’objectif de ce type d’approche est de retourner les images les plus proches d'une requête donnée en terme de contenu visuel.Notre travail s'inscrit dans un contexte applicatif spécifique qui consiste à indexer des petites bases d'images expertes sur lesquelles nous n'avons aucune connaissance a priori.L’une de nos contributions pour palier ce problème consiste à choisir un ensemble de descripteurs visuels et de les placer en compétition directe. Nous utilisons deux stratégies pour combiner ces caractéristiques : la première, est pyschovisuelle, et la seconde, est statistique.Dans ce contexte, nous proposons une approche adaptative non supervisée, basée sur les sacs de mots et phrases visuels, dont le principe est de sélectionner les caractéristiques pertinentes pour chaque point d'intérêt dans le but de renforcer la représentation de l'image.Les tests effectués montrent l'intérêt d'utiliser ce type de méthodes malgré la domination des méthodes basées réseaux de neurones convolutifs dans la littérature.Nous proposons également une étude, ainsi que les résultats de nos premiers tests concernant le renforcement de la recherche en utilisant des méthodes semi-interactives basées sur l’expertise de l'utilisateur
Image Retrieval is still a very active field of image processing as the number of available image datasets continuously increases.One of the principal objectives of Content-Based Image Retrieval (CBIR) is to return the most similar images to a given query with respect to their visual content.Our work fits in a very specific application context: indexing small expert image datasets, with no prior knowledge on the images. Because of the image complexity, one of our contributions is the choice of effective descriptors from literature placed in direct competition.Two strategies are used to combine features: a psycho-visual one and a statistical one.In this context, we propose an unsupervised and adaptive framework based on the well-known bags of visual words and phrases models that select relevant visual descriptors for each keypoint to construct a more discriminative image representation.Experiments show the interest of using this this type of methodologies during a time when convolutional neural networks are ubiquitous.We also propose a study about semi interactive retrieval to improve the accuracy of CBIR systems by using the knowledge of the expert users

3

Fauqueur, Julien. "Contributions pour la Recherche d'Images par Composantes Visuelles." Phd thesis, Université de Versailles-Saint Quentin en Yvelines, 2003. http://tel.archives-ouvertes.fr/tel-00007090.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Dans le contexte de la recherche d'information par le contenu visuel, lorsque l'utilisateur formule une requête visuelle, sa cible de recherche est rarement représentée par une image entière comme le suppose le paradigme classique de recherche par une image exemple. L'image ne doit pas être traitée comme une unité atomique, car elle est généralement constituée d'un ensemble composite de zones visuelles exprimant une certaine sémantique.

Un système de recherche d'information visuelle doit permettre à l'utilisateur de désigner d'une manière explicite la cible visuelle qu'il recherche se rapportant aux différentes composantes de l'image. Notre objectif au cours de ce travail a été de réfléchir à comment définir des clés de recherche visuelle permettant à l'utilisateur d'exprimer cette cible visuelle, de concevoir et d'implémenter efficacement les méthodes correspondantes.

Les contributions originales de cette thèse portent sur de nouvelles approches permettant de retrouver des images à partir de leurs différentes composantes visuelles selon deux paradigmes de recherche distincts.

Le premier paradigme est celui de la recherche par région exemple. Il consiste à retrouver les images comportant une partie d'image similaire à une partie visuelle requête. Pour ce paradigme, nous avons mis au point une approche de segmentation grossière en régions et de description fine de ces régions ensuite. Les régions grossières des images de la base, extraites par notre nouvel algorithme de segmentation non supervisée, représentent les composantes visuellement saillantes de chaque image. Cette décomposition permet à l'utilisateur de désigner séparément une région d'intérêt pour sa requête. La recherche de régions similaires dans les images de la base repose sur un nouveau descripteur de régions (ADCS). Il offre une caractérisation fine, compacte et adaptative de l'apparence photométrique des régions, afin de tenir compte de la spécificité d'une base de descripteurs de régions. Dans cette nouvelle approche, la segmentation est rapide et les régions extraites sont intuitives pour l'utilisateur. La finesse de description des régions améliore la similarité des régions retournées par rapport aux descripteurs existants, compte tenu de la fidélité accrue au contenu des régions.

Notre seconde contribution porte sur l'élaboration d'un nouveau paradigme de recherche d'images par composition logique de catégories de régions. Ce paradigme présente l'avantage d'apporter une solution au problème de la page zéro. Il permet d'atteindre les images, quand elles existent dans la base, qui se rapprochent de la représentation mentale de la cible visuelle de l'utilisateur. Ainsi aucune image ou région exemple n'est nécessaire au moment de la formulation de la requête. Ce paradigme repose sur la génération non-supervisée d'un thésaurus photométrique constitué par le résumé visuel des régions de la base. Pour formuler sa requête, l'utilisateur accède directement à ce résumé en disposant d'opérateurs de composition logique de ces différentes parties visuelles. Il est à noter qu'un item visuel dans ce résumé est un représentant d'une classe photométrique de régions. Les requêtes logiques sur le contenu des images s'apparentent à celles en recherche de texte. L'originalité de ce paradigme ouvre des perspectives riches pour de futurs travaux en recherche d'information visuelle.

4

Bouteldja, Nouha. "Accélération de la recherche dans les espaces de grande dimension : Application à l'indexation d'images par contenu visuel." Paris, CNAM, 2009. http://www.theses.fr/2009CNAM0628.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

L'objectif des travaux de recherche présentés dans cette thèse est l'accélération de la recherche dans les grandes bases de données décrites par des vecteurs de grande dimension. Différentes structures ont déjà été proposées dans la littérature afin de réduire les temps de recherche mais plusieurs d'entre elles souffrent du problème de la malédiction de la dimension. Dans une première partie de cette thèse nous avons revisité le phénomène de la malédiction de la dimension avec les index classiques afin de déterminer à partir de quelle dimension ces index deviennent inefficaces. Cette première étude a montré que les index classiques fonctionnent bien avec des dimensions modérées (< 30) avec les bases réelles. Toutefois pour des dimensions plus importantes le problème de la malédiction de la dimension persiste. D'un autre coté avec l'augmentation des volumes des données ces dernières décennies vu la facilité de leur stockage, les besoins d'accélération de la recherche sont de plus en plus importants. Ces derniers points ont motivé la proposition de HiPeR notre principale contribution. HiPeR est un modèle hiérarchique qui assure la recherche exacte, progressive et approximative avec contrôle de précision. Elle est basée sur une hiérarchie d'espaces et d'index : la recherche commence par les espaces à faibles dimensions afin de réduire les effets de la malédiction de la dimension fournissant un premier résultat. Ce dernier sera amélioré progressivement en utilisant de plus grandes dimensions. Différentes stratégies sont proposées pour parcourir HiPeR en assurant la recherche exacte ou approximative. La qualité de la réponse approximative est fixée par l'utilisateur au moment de la recherche. Afin d'assurer la qualité escomptée, la méthode suit un modèle de précision probabiliste et non paramétrique. Les expériences, menées sur trois bases réelles de 4 millions de points, montrent qu'HiPeR améliore considérablement les index classiques en termes de temps CPU et d'accès I/O. Dans la dernière partie de cette thèse nous avons étudié le cas particulier des requêtes multiples où chaque entité de la base est décrite par plusieurs vecteurs. Afin d'accélérer la recherche dans une telle configuration, différentes stratégies ont été proposées et expérimentées avec les index classiques et HiPeR
In this thesis we are interested in accelerating retrieval in large databases where entities are described with high dimensional vectors (or multidimensional points). Several index structures have been already proposed to accelerate retrieval but a large number of these structures suffer from the well known Curse of Dimensionality phenomenon (CoD). In the first part of this thesis we revisited the CoD phenomenon with classical indices in order to determine from which dimension these indices does not work; Our study showed that classical indices still perform well with moderate dimensions (< 30) when dealing with real data. However, needs for accelerating retrieval are not satisfied when dealing with high dimensional spaces or with large databases. The latter observations motivated our main contribution called HiPeR. HiPeR is based on a hierarchy of subspaces and indexes: it performs nearest neighbors search across spaces of different dimensions, by beginning with the lowest dimensions up to the highest ones, aiming at minimizing the effects of curse of dimensionality. Scanning the hierarchy can be done according to several scenarios that are presented for retrieval of exact as well as approximate neighbors. In this work, HiPeR has been implemented on the classical index structure VA-File, providing VA-Hierarchies. For the approximate scenario, the model of precision loss defined is probabilistic and non parametric (very little assumptions are made on the data distribution) and quality of answers can be selected by user at query time. HiPeR is evaluated for range queries on 3 real data-sets of image descriptors varying from 500,000 vectors to 4 millions. The experiments demonstrate that the hierarchy of HiPeR improves the best index structure by significantly. Reducing CPU time, whatever the scenario of retrieval. Its approximate version improves even more retrieval by saving I/O access significantly. In the last part of our thesis, we studied the particular case of multiple queries where each database entity is represented with several vectors. To accelerate retrieval with such queries different strategies were proposed to reduce I/O and CPU times. The proposed strategies were applied both to simple indices as well as to HiPeR

5

Le, Huu Ton. "Improving image representation using image saliency and information gain." Thesis, Poitiers, 2015. http://www.theses.fr/2015POIT2287/document.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

De nos jours, avec le développement des nouvelles technologies multimédia, la recherche d’images basée sur le contenu visuel est un sujet de recherche en plein essor avec de nombreux domaines d'application: indexation et recherche d’images, la graphologie, la détection et le suivi d’objets... Un des modèles les plus utilisés dans ce domaine est le sac de mots visuels qui tire son inspiration de la recherche d’information dans des documents textuels. Dans ce modèle, les images sont représentées par des histogrammes de mots visuels à partir d'un dictionnaire visuel de référence. La signature d’une image joue un rôle important car elle détermine la précision des résultats retournés par le système de recherche.Dans cette thèse, nous étudions les différentes approches concernant la représentation des images. Notre première contribution est de proposer une nouvelle méthodologie pour la construction du vocabulaire visuel en utilisant le gain d'information extrait des mots visuels. Ce gain d’information est la combinaison d’un modèle de recherche d’information avec un modèle d'attention visuelle.Ensuite, nous utilisons un modèle d'attention visuelle pour améliorer la performance de notre modèle de sacs de mots visuels. Cette étude de la saillance des descripteurs locaux souligne l’importance d’utiliser un modèle d’attention visuelle pour la description d’une image.La dernière contribution de cette thèse au domaine de la recherche d’information multimédia démontre comment notre méthodologie améliore le modèle des sacs de phrases visuelles. Finalement, une technique d’expansion de requêtes est utilisée pour augmenter la performance de la recherche par les deux modèles étudiés
Nowadays, along with the development of multimedia technology, content based image retrieval (CBIR) has become an interesting and active research topic with an increasing number of application domains: image indexing and retrieval, face recognition, event detection, hand writing scanning, objects detection and tracking, image classification, landmark detection... One of the most popular models in CBIR is Bag of Visual Words (BoVW) which is inspired by Bag of Words model from Information Retrieval field. In BoVW model, images are represented by histograms of visual words from a visual vocabulary. By comparing the images signatures, we can tell the difference between images. Image representation plays an important role in a CBIR system as it determines the precision of the retrieval results.In this thesis, image representation problem is addressed. Our first contribution is to propose a new framework for visual vocabulary construction using information gain (IG) values. The IG values are computed by a weighting scheme combined with a visual attention model. Secondly, we propose to use visual attention model to improve the performance of the proposed BoVW model. This contribution addresses the importance of saliency key-points in the images by a study on the saliency of local feature detectors. Inspired from the results from this study, we use saliency as a weighting or an additional histogram for image representation.The last contribution of this thesis to CBIR shows how our framework enhances the BoVP model. Finally, a query expansion technique is employed to increase the retrieval scores on both BoVW and BoVP models

6

Leveau, Valentin. "Représentations d'images basées sur un principe de voisins partagés pour la classification fine." Thesis, Montpellier, 2016. http://www.theses.fr/2016MONTT257/document.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Dans cette thèse, nous nous sommes intéressés au problème de la classification à « grain fin » qui est une tâche de classification particulière où les classes peuvent être visuellement distinguables seulement à partir de détails subtils et où le contexte agit souvent comme une source de bruit. Ce travail est principalement motivé par le besoin de concevoir des représentations d'images plus « fines » pour adresser de telles tâches de classification qui nécessitent un encodage d’informations discriminantes très fines et localisées. L'originalité principale de notre approche est d’intégrer dans une représentation globale de haute dimension une mesure de consistance géométrique locale entre l’image à représenter et les images d’une base de référence (que nous considérons comme un vocabulaire visuel possiblement constitué d’un grand nombre d’images). Ceci nous permet d’encoder dans une représentation vectorielle des motifs très localisés et géométriquement consistant avec l’image (contrairement aux méthodes de codage traditionnelles comme les Bag-of-Visual-Word, les vecteurs de Fisher ou les vecteurs VLAD). Plus en détails : Nous proposons dans un premier temps une approche de classification d'instances d'entités visuelles basée sur un classificateur par plus proches voisins qui agrège les similarités entre l'image requête et celles de la base d'apprentissage. Les similarités sont calculées avec prise en compte de la consistance géométrique locale entre les descripteurs locaux de la requête et ceux des images de la base d'apprentissage. Cette base pouvant être constituée de nombreux descripteurs locaux, nous proposons de passer notre méthode à l’échelle en utilisant des méthodes de recherche approximatives de plus proches voisins. Par la suite, nous avons mis au point un nouveau noyau de similarité entre des images basé sur les descripteurs locaux qu'elles partagent dans une base de référence. Nous avons nommé ce noyau Shared Nearest Neighbors Kernel (SNN Kernel), qui peut être utilisé comme n'importe quel autre noyau dans les machines à noyau. Nous avons dérivé, à partir de ce dernier, une représentation explicite globale des images à décrire. Cette représentation encode la similarité de l'image considérée avec les différentes régions visuelles des images de la base correspondant au vocabulaire visuel. Nous avons également rendu possible l'intégration de l'information de consistance géométrique dans nos représentations à l'aide de l'algorithme RANSAC amélioré que nous avons proposé dans notre contribution précédente. La classification des images se fait ensuite par un modèle linéaire appris sur ces représentations. Finalement, nous proposons, comme troisième contribution, une stratégie permettant de considérablement réduire, jusqu'à deux ordres de grandeur, la dimension de la représentation d'image sur-complète précédemment présentée tout en conservant une performance de classification compétitive aux méthodes de l’état de l’art. Nous avons validé nos approches en conduisant une série d’expérimentations sur plusieurs tâches de classification impliquant des objets rigides comme FlickrsLogos32 ou Vehicles29, mais aussi sur des tâches impliquant des concepts visuels plus finement discriminables comme la base FGVC-Aircrafts, Oxford-Flower102 ou CUB-Birds200. Nous avons aussi démontré des résultats significatifs sur des tâches de classification audio à grain fin comme la tâche d'identification d'espèce d'oiseau de LifeCLEF2015 en proposant une extension temporelle de notre représentation d'image. Finalement, nous avons montré que notre technique de réduction de dimension permet d’obtenir un vocabulaire visuel très interprétable composé des régions d'image les plus représentatives pour les concepts visuels représentés dans la base d’apprentissage
This thesis focuses on the issue of fine-grained classification which is a particular classification task where classes may be visually distinguishable only from subtle localized details and where background often acts as a source of noise. This work is mainly motivated by the need to devise finer image representations to address such fine-grained classification tasks by encoding enough localized discriminant information such as spatial arrangement of local features.To this aim, the main research line we investigate in this work relies on spatially localized similarities between images computed thanks to efficient approximate nearest neighbor search techniques and localized parametric geometry. The main originality of our approach is to embed such spatially consistent localized similarities into a high-dimensional global image representation that preserves the spatial arrangement of the fine-grained visual patterns (contrary to traditional encoding methods such as BoW, Fisher or VLAD Vectors). In a nutshell, this is done by considering all raw patches of the training set as a large visual vocabulary and by explicitly encoding their similarity to the query image. In more details:The first contribution proposed in this work is a classification scheme based on a spatially consistent k-nn classifier that relies on pooling similarity scores between local features of the query and those of the similar retrieved images in the vocabulary set. As this set can be composed of a lot of local descriptors, we propose to scale up our approach by using approximate k-nearest neighbors search methods. Then, the main contribution of this work is a new aggregation-based explicit embedding derived from a newly introduced match kernel based on shared nearest neighbors of localized feature vectors combined with local geometric constraints. The originality of this new similarity-based representation space is that it directly integrates spatially localized geometric information in the aggregation process.Finally, as a third contribution, we proposed a strategy to drastically reduce, by up to two orders of magnitude, the high-dimensionality of the previously introduced over-complete image representation while still providing competitive image classification performance.We validated our approaches by conducting a series of experiments on several classification tasks involving rigid objects such as FlickrsLogos32 or Vehicles29 but also on tasks involving finer visual knowledge such as FGVC-Aircrafts, Oxford-Flower102 or CUB-Birds200. We also demonstrated significant results on fine-grained audio classification tasks such as the LifeCLEF 2015 bird species identification challenge by proposing a temporal extension of our image representation. Finally, we notably showed that our dimensionality reduction technique used on top of our representation resulted in highly interpretable visual vocabulary composed of the most representative image regions for different visual concepts of the training base

7

Landre, Jérôme. "Analyse multirésolution pour la recherche et l'indexation d'images par le contenu dans les bases de données images - Application à la base d'images paléontologique Trans'Tyfipal." Phd thesis, Université de Bourgogne, 2005. http://tel.archives-ouvertes.fr/tel-00079897.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Les systèmes de recherche d'images par le contenu récents utilisent une approche de navigation visuelle interactive dans les bases d'images. Ces méthodes utilisent une classification des images (hors-ligne) dans un arbre de recherche pour une navigation visuelle (en ligne) des utilisateurs. Cette approche possède trois problèmes principaux:
1) La taille du vecteur descripteur (n>100) rend les calculs de distance sensibles à la malédiction de la dimension,
2) La présence d'attributs de nature différente dans le vecteur descripteur ne facilite pas la classification,
3) La classification ne s'adapte pas (en général) au contexte de recherche de l'utilisateur.

Nous proposons dans ce travail une méthode basée sur la construction de hiérarchies de signatures de tailles réduites croissantes qui permettent de prendre en compte le contexte de recherche de l'utilisateur. Notre méthode tend à imiter le comportement de la vision humaine.

Le vecteur descripteur contient des attributs issus de l'analyse multirésolution des images. Ces attributs sont organisés par un expert du domaine de la base d'images en plusieurs hiérarchies de quatre vecteur signature de taille réduite croissante (respectivement 4, 6, 8 et 10 attributs). Ces signatures sont utilisées pour construire un arbre de recherche flou grâce à l'algorithme des nuées dynamiques (dont deux améliorations sont proposées). Les utilisateurs en ligne choisissent une hiérarchie de signature parmi celles proposées par l'expert en fonction de leur contexte de recherche.

Un logiciel de démonstration a été développé. Il utilise une interface web dynamique (PHP), les traitements d'images (optimisés) sont réalisés grâce aux librairies Intel IPP et OpenCV, le stockage et l'indexation sont réalisés par une base de données MySQL, une interface de visualisation 3D (Java3D) permet de se rendre compte de la répartition des images dans la classification.

Un protocole de tests psycho-visuels a été réalisé. Les résultats sur la base paléontologique Trans'Tyfipal sont présentés et offrent des réponses pertinentes selon le contexte de recherche. La méthode donne de bons résultats, tant en temps de calcul qu'en pertinence des images résultats lors de la navigation dans les bases d'images homogènes.

8

Gbehounou, Syntyche. "Indexation de bases d'images : évaluation de l'impact émotionnel." Thesis, Poitiers, 2014. http://www.theses.fr/2014POIT2295/document.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

L'objectif de ce travail est de proposer une solution de reconnaissance de l'impact émotionnel des images en se basant sur les techniques utilisées en recherche d'images par le contenu. Nous partons des résultats intéressants de cette architecture pour la tester sur une tâche plus complexe. La tâche consiste à classifier les images en fonction de leurs émotions que nous avons définies "Négative", "Neutre" et "Positive". Les émotions sont liées aussi bien au contenu des images, qu'à notre vécu. On ne pourrait donc pas proposer un système de reconnaissance des émotions performant universel. Nous ne sommes pas sensible aux mêmes choses toute notre vie : certaines différences apparaissent avec l'âge et aussi en fonction du genre. Nous essaierons de nous affranchir de ces inconstances en ayant une évaluation des bases d'images la plus hétérogène possible. Notre première contribution va dans ce sens : nous proposons une base de 350 images très largement évaluée. Durant nos travaux, nous avons étudié l'apport de la saillance visuelle aussi bien pendant les expérimentations subjectives que pendant la classification des images. Les descripteurs, que nous avons choisis, ont été évalués dans leur majorité sur une base consacrée à la recherche d'images par le contenu afin de ne sélectionner que les plus pertinents. Notre approche qui tire les avantages d'une architecture bien codifiée, conduit à des résultats très intéressants aussi bien sur la base que nous avons construite que sur la base IAPS, qui sert de référence dans l'analyse de l'impact émotionnel des images
The goal of this work is to propose an efficient approach for emotional impact recognition based on CBIR techniques (descriptors, image representation). The main idea relies in classifying images according to their emotion which can be "Negative", "Neutral" or "Positive". Emotion is related to the image content and also to the personnal feelings. To achieve our goal we firstly need a correct assessed image database. Our first contribution is about this aspect. We proposed a set of 350 diversifed images rated by people around the world. Added to our choice to use CBIR methods, we studied the impact of visual saliency for the subjective evaluations and interest region segmentation for classification. The results are really interesting and prove that the CBIR methods are usefull for emotion recognition. The chosen desciptors are complementary and their performance are consistent on the database we have built and on IAPS, reference database for the analysis of the image emotional impact

9

Niaz, Usman. "Amélioration de la détection des concepts dans les vidéos en coupant de plus grandes tranches du monde visuel." Electronic Thesis or Diss., Paris, ENST, 2014. http://www.theses.fr/2014ENST0040.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Les documents visuels comprenant des images et des vidéos sont en croissance rapide sur Internet et dans nos collections personnelles. Cela nécessite une analyse automatique du contenu visuel qui fait appel à la conception de méthodes intelligentes pour correctement indexer, rechercher et récupérer des images et des vidéos. Cette thèse vise à améliorer la détection automatique des concepts dans les vidéos sur Internet. Nos contributions portent sur des différents niveaux dans le cadre de détection de concept et peuvent être divisés en trois parties principales. La première partie se focalise sur l’amélioration du modèle de représentation des vidéos « Bag-of-Words (BOW) » en proposant un nouveau mécanisme de construction qui utilise des étiquettes de concepts et une autre technique qui ajoute un raffinement à la signature BOW basée sur la distribution de ses éléments. Nous élaborons ensuite des méthodes pour intégrer des entités semblables et dissemblables pour construire des modèles de reconnaissance améliorés dans la deuxième partie. A ce stade-là, nous observons l’information potentielle que les concepts partagent et construisons des modèles pour les méta-concepts dont sont dérivés les résultats spécifiques de concepts. Cela améliore la reconnaissance des concepts qui ont peu d’exemples annotés. Enfin, nous concevons certaines méthodes d'apprentissage semi-supervisé pour bénéficier de la quantité importante de données non étiquetées. Nous proposons des techniques pour améliorer l'algorithme de cotraining avec une sélection optimale des classifieurs utilisés
Visual material comprising images and videos is growing ever so rapidly over the internet and in our personal collections. This necessitates automatic understanding of the visual content which calls for the conception of intelligent methods to correctly index, search and retrieve images and videos. This thesis aims at improving the automatic detection of concepts in the internet videos by exploring all the available information and putting the most beneficial out of it to good use. Our contributions address various levels of the concept detection framework and can be divided into three main parts. The first part improves the Bag of Words (BOW) video representation model by proposing a novel BOW construction mechanism using concept labels and by including a refinement to the BOW signature based on the distribution of its elements. We then devise methods to incorporate knowledge from similar and dissimilar entities to build improved recognition models in the second part. Here we look at the potential information that the concepts share and build models for meta-concepts from which concept specific results are derived. This improves recognition for concepts lacking labeled examples. Lastly we contrive certain semi-supervised learning methods to get the best of the substantial amount of unlabeled data. We propose techniques to improve the semi-supervised cotraining algorithm with optimal view selection

10

Niaz, Usman. "Amélioration de la détection des concepts dans les vidéos en coupant de plus grandes tranches du monde visuel." Thesis, Paris, ENST, 2014. http://www.theses.fr/2014ENST0040/document.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Les documents visuels comprenant des images et des vidéos sont en croissance rapide sur Internet et dans nos collections personnelles. Cela nécessite une analyse automatique du contenu visuel qui fait appel à la conception de méthodes intelligentes pour correctement indexer, rechercher et récupérer des images et des vidéos. Cette thèse vise à améliorer la détection automatique des concepts dans les vidéos sur Internet. Nos contributions portent sur des différents niveaux dans le cadre de détection de concept et peuvent être divisés en trois parties principales. La première partie se focalise sur l’amélioration du modèle de représentation des vidéos « Bag-of-Words (BOW) » en proposant un nouveau mécanisme de construction qui utilise des étiquettes de concepts et une autre technique qui ajoute un raffinement à la signature BOW basée sur la distribution de ses éléments. Nous élaborons ensuite des méthodes pour intégrer des entités semblables et dissemblables pour construire des modèles de reconnaissance améliorés dans la deuxième partie. A ce stade-là, nous observons l’information potentielle que les concepts partagent et construisons des modèles pour les méta-concepts dont sont dérivés les résultats spécifiques de concepts. Cela améliore la reconnaissance des concepts qui ont peu d’exemples annotés. Enfin, nous concevons certaines méthodes d'apprentissage semi-supervisé pour bénéficier de la quantité importante de données non étiquetées. Nous proposons des techniques pour améliorer l'algorithme de cotraining avec une sélection optimale des classifieurs utilisés
Visual material comprising images and videos is growing ever so rapidly over the internet and in our personal collections. This necessitates automatic understanding of the visual content which calls for the conception of intelligent methods to correctly index, search and retrieve images and videos. This thesis aims at improving the automatic detection of concepts in the internet videos by exploring all the available information and putting the most beneficial out of it to good use. Our contributions address various levels of the concept detection framework and can be divided into three main parts. The first part improves the Bag of Words (BOW) video representation model by proposing a novel BOW construction mechanism using concept labels and by including a refinement to the BOW signature based on the distribution of its elements. We then devise methods to incorporate knowledge from similar and dissimilar entities to build improved recognition models in the second part. Here we look at the potential information that the concepts share and build models for meta-concepts from which concept specific results are derived. This improves recognition for concepts lacking labeled examples. Lastly we contrive certain semi-supervised learning methods to get the best of the substantial amount of unlabeled data. We propose techniques to improve the semi-supervised cotraining algorithm with optimal view selection

11

Risser-Maroix, Olivier. "Similarité visuelle et apprentissage de représentations." Electronic Thesis or Diss., Université Paris Cité, 2022. http://www.theses.fr/2022UNIP7327.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

L’objectif de cette thèse CIFRE est de développer un moteur de recherche par image, basé sur la vision par ordinateur, afin d’assister les officiers des douanes. En effet, nous constatons, paradoxalement, une augmentation des menaces sécuritaires (terrorisme, trafic, etc.) couplée d’une diminution des effectifs en Douane. Les images de cargos acquises par des scanners à rayons X permettent déjà l’inspection d’un chargement sans nécessiter l’ouverture et la fouille complète d’un chargement contrôlé. En proposant automatiquement des images similaires, un tel moteur de recherche permettrait d’aider le douanier dans sa prise de décision face à des signatures visuelles de produits peu fréquents ou suspects. Grâce à l’essor des techniques modernes en intelligence artificielle (IA), notre époque subit de grands changements : l’IA transforme tous les secteurs de l’économie. Certains voient dans cet avènement de la "robotisation" la déshumanisation de la force de travail, voire son remplacement. Cependant, réduire l’utilisation de l’IA à la simple recherche de gains de productivité serait réducteur. En réalité, l’IA pourrait permettre d’augmenter la capacité de travail des humains et non à les concurrencer en vue de les remplacer. C’est dans ce contexte, la naissance de l’Intelligence Augmentée, que s’inscrit cette thèse. Ce manuscrit consacré à la question de la similarité visuelle se décompose en deux parties. Deux cas pratiques où la collaboration entre l’Homme et l’IA est bénéfique sont ainsi proposés. Dans la première partie, le problème de l’apprentissage de représentations pour la recherche d’images similaires fait encore l’objet d’investigations approfondies. Après avoir implémenté un premier système semblable à ceux proposés par l’état de l’art, l’une des principales limitations est pointée du doigt : le biais sémantique. En effet, les principales méthodes contemporaines utilisent des jeux de données d’images couplées de labels sémantiques uniquement. Les travaux de la littérature considèrent que deux images sont similaires si elles partagent le même label. Cette vision de la notion de similarité, pourtant fondamentale en IA, est réductrice. Elle sera donc remise en question à la lumière des travaux en psychologie cognitive afin de proposer une amélioration : la prise en compte de la similarité visuelle. Cette nouvelle définition permet une meilleure synergie entre le douanier et la machine. Ces travaux font l’objet de publications scientifiques et d’un brevet. Dans la seconde partie, après avoir identifié les composants clefs permettant d’améliorer les performances du système précédemment proposé, une approche mêlant recherche empirique et théorique est proposée. Ce second cas, l’intelligence augmentée est inspirée des développements récents en mathématiques et physique. D’abord appliquée à la com- préhension d’un hyperparamètre important (la température), puis à une tâche plus large (la classification), la méthode proposée permet de fournir une intuition sur l’importance et le rôle de facteurs corrélés à la variable étudiée (ex. hyperparamètre, score, etc.). La chaîne de traitement ainsi mise en place a démontré son efficacité en fournissant une solution hautement explicable et en adéquation avec des décennies de recherches en apprentissage automatique. Ces découvertes permettront l’amélioration des solutions précédemment développées
The objective of this CIFRE thesis is to develop an image search engine, based on computer vision, to assist customs officers. Indeed, we observe, paradoxically, an increase in security threats (terrorism, trafficking, etc.) coupled with a decrease in the number of customs officers. The images of cargoes acquired by X-ray scanners already allow the inspection of a load without requiring the opening and complete search of a controlled load. By automatically proposing similar images, such a search engine would help the customs officer in his decision making when faced with infrequent or suspicious visual signatures of products. Thanks to the development of modern artificial intelligence (AI) techniques, our era is undergoing great changes: AI is transforming all sectors of the economy. Some see this advent of "robotization" as the dehumanization of the workforce, or even its replacement. However, reducing the use of AI to the simple search for productivity gains would be reductive. In reality, AI could allow to increase the work capacity of humans and not to compete with them in order to replace them. It is in this context, the birth of Augmented Intelligence, that this thesis takes place. This manuscript devoted to the question of visual similarity is divided into two parts. Two practical cases where the collaboration between Man and AI is beneficial are proposed. In the first part, the problem of learning representations for the retrieval of similar images is still under investigation. After implementing a first system similar to those proposed by the state of the art, one of the main limitations is pointed out: the semantic bias. Indeed, the main contemporary methods use image datasets coupled with semantic labels only. The literature considers that two images are similar if they share the same label. This vision of the notion of similarity, however fundamental in AI, is reductive. It will therefore be questioned in the light of work in cognitive psychology in order to propose an improvement: the taking into account of visual similarity. This new definition allows a better synergy between the customs officer and the machine. This work is the subject of scientific publications and a patent. In the second part, after having identified the key components allowing to improve the performances of thepreviously proposed system, an approach mixing empirical and theoretical research is proposed. This secondcase, augmented intelligence, is inspired by recent developments in mathematics and physics. First applied tothe understanding of an important hyperparameter (temperature), then to a larger task (classification), theproposed method provides an intuition on the importance and role of factors correlated to the studied variable(e.g. hyperparameter, score, etc.). The processing chain thus set up has demonstrated its efficiency byproviding a highly explainable solution in line with decades of research in machine learning. These findings willallow the improvement of previously developed solutions

12

Tirilly, Pierre. "Traitement automatique des langues pour l'indexation d'images." Phd thesis, Université Rennes 1, 2010. http://tel.archives-ouvertes.fr/tel-00516422.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Bien que s'inscrivant dans un cadre global de recherche d'information (RI) classique, l'indexation d'image ne tire que peu parti des nombreux travaux existants en RI textuelle et en traitement automatique des langues (TAL). Nous identifions deux niveaux auxquels de tels travaux peuvent s'intégrer aux systèmes d'indexation d'images. Le premier niveau est celui de la description du contenu visuel des images. Pour y intégrer des techniques de TAL, nous adoptons la description des images par mots visuels proposée par Sivic et Zisserman. Cette représentation soulève deux problématiques similaires aux problématiques classiques de la RI textuelle~: le choix des termes d'indexation les plus pertinents pour décrire les documents et la prise en compte des relations entre ces termes. Pour répondre à la première de ces problématiques nous proposons une étude des stop-lists et des pondérations dans le cadre de l'indexation d'images. Cette étude montre que, contrairement au cas des textes, il n'existe pas de pondération optimale pour tous types de requêtes, et que la pondération doit être choisie en fonction de la requête. Pour la seconde, nous utilisons des modèles de langues, outil classique du TAL que nous adaptons au cas des images, pour dépasser l'hypothèse d'indépendance des termes dans un cadre de classification d'images. Nos expérimentations montrent que prendre en compte des relations géométriques entre mots visuels permet d'améliorer les performances des systèmes. Le second niveau étudié est l'indexation sémantique des images : il est possible d'utiliser des méthodes de TAL sur des textes accompagnant les images pour obtenir des descriptions textuelles de celles-ci. Dans un premier temps, nous montrons que les descripteurs classiques d'images ne permettent pas d'obtenir des systèmes d'annotation d'images efficaces. Puis nous proposons une méthode d'annotation qui contourne cet écueil en se basant sur des descripteurs textuels et visuels de haut-niveau~: nous extrayons des textes des entités nommées, que nous mettons en relation avec des concepts visuels détectés dans les images afin d'annoter celles-ci. Nous validons notre approche sur un corpus réel et de grande taille composé d'articles de presse.

13

Tirilly, Pierre. "Traitement automatique des langues pour l'indexation d'images." Phd thesis, Rennes 1, 2010. http://www.theses.fr/2010REN1S045.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Nous nous intéressons, dans cette thèse, à l'usage du traitement automatique des langues (TAL) dans les systèmes d'indexation d'images. Au niveau de la description du contenu visuel des images, nous nous appuyons sur la description des images sous forme de mots visuels, qui pose des problématiques similaires à celles de l'indexation textuelle. Nous utilisons des méthodes de TAL (pondérations et stop-lists) afin de déterminer les mots visuels pertinents, puis nous utilisons les modèles de langues pour prendre en compte certaines relations géométriques entre mots visuels. Au niveau de la description du contenu sémantique des images, nous proposons une méthode d'annotation d'images basée sur l'extraction d'entités nommées pertinentes dans des textes accompagnant les images à annoter
In this thesis, we propose to integrate natural language processing (NLP) techniques in image indexing systems. We first address the issue of describing the visual content of images. We rely on the visual word-based image description, which raises problems that are well known in the text indexing field. First, we study various NLP methods (weighting schemes and stop-lists) to automatically determine which visual words are relevant to describe the images. Then we use language models to take account of some geometrical relations between the visual words. We also address the issue of describing the semantic content of images: we propose an image annotation scheme that relies on extracting relevant named entities from texts coming with the images to annotate

14

Blettery, Emile. "Structuring heritage iconographic collections : from automatic interlinking to semi-automatic visual validation." Electronic Thesis or Diss., Université Gustave Eiffel, 2024. http://www.theses.fr/2024UEFL2001.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Cette thèse explore des approches de structuration automatique et semi-automatique pour les collections de contenus iconographiques patrimoniaux. La structuration et l'exploitation de tels contenus pourrait s'avérer bénéfique pour de nombreuses applications, du tourisme virtuel à un accès facilité pour les chercheurs et le grand public. Cependant, l'organisation "en silo" inhérente à ces collections entrave les approches de structuration automatique et toutes les applications subséquentes.La communauté de la vision par ordinateur a proposé de nombreuses méthodes automatiques pour l'indexation (et la structuration) de collections d'images à grande échelle. Exploitant l'aspect visuel des contenus, elles fonctionnent indépendamment des structures de métadonnées qui organisent principalement les collections patrimoniales, apparaissant ainsi comme une solution potentielle au problème de liage entre les structures uniques des différentes collections. Cependant, ces méthodes sont généralement entrainées sur de grands jeux d'images récentes ne reflétant pas la diversité visuelle des contenus patrimoniaux. Cette thèse vise à évaluer et à améliorer ces méthodes automatiques pour la structuration des contenus iconographiques patrimoniaux. Pour cela, cette thèse apporte trois différentes contributions avec l'objectif commun d'assurer une certaine explicabilité des méthodes évaluées et proposées, nécessaire pour justifier de leur pertinence et faciliter leur adaptation à de nouvelles acquisitions. La première contribution est une évaluation des approches automatiques de recherche d'images basée sur le contenu, confrontées aux différents types de données du patrimoine iconographique. Cette évaluation se concentre d'abord sur les descripteurs d'images de l'étape de recherche d'images, puis sur les méthodes de ré-ordonnancement qui réorganisent ensuite les images similaires en fonction d'un autre critère. Les approches les plus pertinentes peuvent alors être sélectionnées pour la suite tandis que celles qui ne le sont pas fournissent des informations inspirant notre deuxième contribution. La deuxième contribution consiste en trois nouvelles méthodes de ré-ordonnancement exploitant des informations spatiales plus ou moins globales pour réévaluer les liens de similarité visuelle créés par l'étape de recherche d'images. La première exploite les premières images retrouvées pour créer une scène 3D approximative dans laquelle les images retrouvées sont positionnées pour évaluer leur cohérence dans la scène. La deuxième simplifie la première avec une expansion de requête géométrique, c'est-à-dire en agrégeant des informations géométriques 2D issues des images récupérées pour encoder plus largement la géométrie de la scène sans la reconstruire (ce qui est couteux en temps de calcul). Enfin, la troisième exploite des informations de position plus globales, à l'échelle du jeu d'images, pour estimer la cohérence entre la similarité visuelle entre images et leur proximité spatiale. La troisième et dernière contribution est un processus semi-automatique de validation visuelle et de correction manuelle de la structuration d'une collection. Ce cadre exploite les approches automatiques les plus adaptées et une plateforme de visualisation basée sur une représentation en graphes. Nous utilisons plusieurs indices visuels pour orienter l'intervention manuelle de l'expert sur les zones impactantes. Cette approche semi-automatique guidée présente des avantages certains, car elle résout des erreurs de structuration qui échappent aux méthodes automatiques. Ces corrections étant ensuite largement diffusées dans toute la structure, l'améliorant globalement.Nous espérons que notre travail apportera quelques perspectives sur la structuration automatique de contenus iconographiques patrimoniaux par des approches basées sur le contenu, tout en ouvrant la porte à davantage de recherches sur la structuration semi-automatique guidée de collections d'images
This thesis explores automatic and semi-automatic structuring approaches for iconographic heritage contents collections. Indeed, exploiting such contents could prove beneficial for numerous applications. From virtual tourism to increased access for both researchers and the general public, structuring the collections would increase their accessibility and their use. However, the inherent "in silo" organization of those collections, each with their unique organization system hinders automatic structuring approaches and all subsequent applications. The computer vision community has proposed numerous automatic methods for indexing (and structuring) image collections at large scale. Exploiting the visual aspect of the contents, they are not impacted by the differences in metadata structures that mainly organize heritage collections, thus appearing as a potential solution to the problem of linking together unique data structures. However, those methods are trained on large, recent datasets, that do not reflect the visual diversity of iconographic heritage contents. This thesis aims at evaluating and exploiting those automatic methods for iconographic heritage contents structuring.To this end, this thesis proposes three distinct contributions with the common goal of ensuring a certain level of interpretability for the methods that are both evaluated and proposed. This interpretability is necessary to justify their efficiency to deal with such complex data but also to understand how to adapt them to new and different content. The first contribution of this thesis is an evaluation of existing state-of-the-art automatic content-based image retrieval (CBIR) approaches when faced with the different types of data composing iconographic heritage. This evaluation focuses first on image descriptors paramount for the image retrieval step and second, on re-ranking methods that re-order similar images after a first retrieval step based on another criterion. The most relevant approaches can then be selected for further use while the non-relevant ones provide insights for our second contribution. The second contribution consists of three novel re-ranking methods exploiting a more or less global spatial information to re-evaluate the relevance of visual similarity links created by the CBIR step. The first one exploits the first retrieved images to create an approximate 3D scene of the scene in which retrieved images are positioned to evaluate their coherence in the scene. The second one simplifies the first while extending the classical geometric verification setting by performing geometric query expansion, that is aggregating 2D geometric information from retrieved images to encode more largely the scene's geometry without the costly step of 3D scene creation. Finally, the third one exploits a more global location information, at dataset-level, to estimate the coherence of the visual similarity between images with regard to their spatial proximity. The third and final contribution is a framework for semi-automatic visual validation and manual correction of a collection's structuring. This framework exploits on one side the most suited automatic approaches evaluated or proposed earlier, and on the other side a graph-based visualization platform. We exploit several visual clues to focus the expert's manual intervention on impacting areas. We show that this guided semi-automatic approach has merits in terms of performance as it solves mistakes in the structuring that automatic methods can not, these corrections being then largely diffused throughout the structure, improving it even more globally.We hope our work will provide some first insights on automatically structuring heritage iconographic content with content-based approaches but also encourage further research on guided semi-automatic structuring of image collections

15

Awad, Dounia. "Vers un système perceptuel de reconnaissance d'objets." Thesis, La Rochelle, 2014. http://www.theses.fr/2014LAROS017/document.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Cette thèse a pour objectif de proposer un système de reconnaissance d’images utilisant des informations attentionnelles. Nous nous intéressons à la capacité d’une telle approche à améliorer la complexité en temps de calcul et en utilisation mémoire pour la reconnaissance d’objets. Dans un premier temps, nous avons proposé d’utiliser un système d’attention visuelle comme filtre pour réduire le nombre de points d’intérêt générés par les détecteurs traditionnels [Awad 12]. En utilisant l’architecture attentionnelle proposée par Perreira da Silva comme filtre [Awad 12] sur la base d’images de VOC 2005, nous avons montré qu’un filtrage de 60% des points d’intérêt (extraits par Harris-Laplace et Laplacien) ne fait diminuer que légèrement la performance d’un système de reconnaissance d’objets (différence moyenne de AUC ~ 1%) alors que le gain en complexité est important (40% de gain en vitesse de calcul et 60% en complexité). Par la suite, nous avons proposé un descripteur hybride perceptuel-texture [Awad 14] qui caractérise les informations fréquentielles de certaines caractéristiques considérées comme perceptuellement intéressantes dans le domaine de l’attention visuelle, comme la couleur, le contraste ou l’orientation. Notre descripteur a l’avantage de fournir des vecteurs de caractéristiques ayant une dimension deux fois moindre que celle des descripteurs proposés dans l’état de l’art. L’expérimentation de ce descripteur sur un système de reconnaissance d’objets (le détecteur restant SIFT), sur la base d’images de VOC 2007, a montré une légère baisse de performance (différence moyenne de précision ~5%) par rapport à l’algorithme original, basé sur SIFT mais gain de 50% en complexité. Pour aller encore plus loin, nous avons proposé une autre expérimentation permettant de tester l’efficacité globale de notre descripteur en utilisant cette fois le système d’attention visuelle comme détecteur des points d’intérêt sur la base d’images de VOC 2005. Là encore, le système n’a montré qu’une légère baisse de performance (différence moyenne de précision ~3%) alors que la complexité est réduite de manière drastique (environ 50% de gain en temps de calcul et 70% en complexité)
The main objective of this thesis is to propose a pipeline for an object recognition algorithm, near to human perception, and at the same time, address the problems of Content Based image retrieval (CBIR) algorithm complexity : query run time and memory allocation. In this context, we propose a filter based on visual attention system to select salient points according to human interests from the interest points extracted by a traditionnal interest points detectors. The test of our approach, using Perreira Da Silva’s system as filter, on VOC 2005 databases, demonstrated that we can maintain approximately the same performance of a object recognition system by selecting only 40% of interest points (extracted by Harris-Laplace and Laplacian), while having an important gain in complexity (40% gain in query-run time and 60% in complexity). Furthermore, we address the problem of high dimensionality of descriptor in object recognition system. We proposed a new hybrid texture descriptor, representing the spatial frequency of some perceptual features extracted by a visual attention system. This descriptor has the advantage of being lower dimension vs. traditional descriptors. Evaluating our descriptor with an object recognition system (interest points detectors are Harris-Laplace & Laplacian) on VOC 2007 databases showed a slightly decrease in the performance (with 5% loss in Average Precision) compared to the original system, based on SIFT descriptor (with 50% complexity gain). In addition, we evaluated our descriptor using a visual attention system as interest point detector, on VOC 2005 databases. The experiment showed a slightly decrease in performance (with 3% loss in performance), meanwhile we reduced drastically the complexity of the system (with 50% gain in run-query time and 70% in complexity)

16

Nguyen, Thanh-Khoa. "Image segmentation and extraction based on pixel communities." Thesis, La Rochelle, 2019. http://www.theses.fr/2019LAROS035.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

La segmentation d’images est devenue une tâche indispensable largement utilisée dans plusieurs applications de traitement d’images, notamment la détection d’objets, le suivi d’objets, l’assistance automatique à la conduite et les systèmes de contrôle du trafic, etc. La littérature regorge d’algorithmes permettant de réaliser des tâches de segmentation d’images. Ces méthodes peuvent être divisées en groupes principaux en fonction des approches sous-jacentes, telles que la segmentation d'images basée sur les régions, la classification basée sur les caractéristiques de l'image, les approches basées sur les graphes et la segmentation d'images basée sur les réseaux de neurones. Récemment, l'analyse de réseaux sociaux a proposé de nombreuses théories et méthodologies. En particulier, des techniques de segmentation d’images basées sur des algorithmes de détection de communautés ont été proposées et forment une famille d'approches visible dans la littérature. Dans cette thèse, nous proposons un nouveau cadre pour la segmentation d'images basée sur la détection de communautés. Si l'idée de base d'utiliser le domaine de l'analyse des réseaux sociaux dans la segmentation de l'image est tout à fait séduisante, la manière dont les algorithmes de détection de communautés peuvent être appliqués efficacement à la segmentation d'images est un sujet qui continue à interroger. L’apport de cette thèse est un effort pour construire de manière pertinente des meilleurs réseaux complexes en fonction de l'application, des méthodes utilisées pour la détection de communautés et pour proposer de nouvelles méthodes pour agréger les régions homogènes afin de produire de bonnes segmentations d’images.Par ailleurs, nous proposons également un système de recherche d’images par le contenu (content-based image retrieval) utilisant les mêmes caractéristiques que celles obtenues par les processus de segmentation d’images. Le moteur de recherche d'images proposé fonctionne pour des images de scènes naturelles et permet de rechercher les images les plus similaires à l'image requête. Ce moteur de recherche d’images par le contenu repose sur l’utilisation des régions extraites comme mots visuels dans le modèle Bag-of-Visual-Words. Ceci permet de valider la généricité de notre approche de segmentation d’images à partir de réseaux complexes et son utilisation dans plusieurs domaines d'applications liés au traitement d’images et de vision par ordinateur. Nos méthodes ont été testées sur plusieurs jeux de données et évaluées en utilisant différentes mesures classiques de la qualité d'une segmentation. Les méthodes proposées produisent des segmentations d'image dont la qualité est supérieure à l'état de l'art
Image segmentation has become an indispensable task that is widely employed in several image processing applications including object detection, object tracking, automatic driver assistance, and traffic control systems, etc. The literature abounds with algorithms for achieving image segmentation tasks. These methods can be divided into some main groups according to the underlying approaches, such as Region-based image segmentation, Feature-based clustering, Graph-based approaches and Artificial Neural Network-based image segmentation. Recently, complex networks have mushroomed both theories and applications as a trend of developments. Hence, image segmentation techniques based on community detection algorithms have been proposed and have become an interesting discipline in the literature. In this thesis, we propose a novel framework for community detection based image segmentation. The idea that brings social networks analysis domain into image segmentation quite satisfies with most authors and harmony in those researches. However, how community detection algorithms can be applied in image segmentation efficiently is a topic that has challenged researchers for decades. The contribution of this thesis is an effort to construct best complex networks for applying community detection and proposal novel agglomerate methods in order to aggregate homogeneous regions producing good image segmentation results. Besides, we also propose a content based image retrieval system using the same features than the ones obtained by the image segmentation processes. The proposed image search engine for real images can implement to search the closest similarity images with query image. This content based image retrieval relies on the incorporation of our extracted features into Bag-of-Visual-Words model. This is one of representative applications denoted that image segmentation benefits several image processing and computer visions applications. Our methods have been tested on several data sets and evaluated by many well-known segmentation evaluation metrics. The proposed methods produce efficient image segmentation results compared to the state of the art

17

Trad, Riadh. "Découverte d'évènements par contenu visuel dans les médias sociaux." Electronic Thesis or Diss., Paris, ENST, 2013. http://www.theses.fr/2013ENST0030.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

L’évolution du web, de ce qui était typiquement connu comme un moyen de communication à sens unique en mode conversationnel, a radicalement changé notre manière de traiter l’information. Des sites de médias sociaux tels que Flickr et Facebook, offrent des espaces d’échange et de diffusion de l’information. Une information de plus en plus riche, mais aussi personnelle, et qui s’organise, le plus souvent, autour d’événements de la vie réelle. Ainsi, un événement peut être perçu comme un ensemble de vues personnelles et locales, capturées par différents utilisateurs. Identifier ces différentes instances permettrait, dès lors, de reconstituer une vue globale de l’événement. Plus particulièrement, lier différentes instances d’un même événement profiterait à bon nombre d’applications tel que la recherche, la navigation ou encore le filtrage et la suggestion de contenus. L’objectif principal de cette thèse est l’identification du contenu multimédia, associé à un événement dans de grandes collections d’images. Une première contribution est une méthode de recherche d’événements basée sur le contenu visuel. La deuxième contribution est une approche scalable et distribuée pour la construction de graphes des K plus proches voisins. La troisième contribution est une méthode collaborative pour la sélection de contenu pertinent. Plus particulièrement, nous nous intéresserons aux problèmes de génération automatique de résumés d’événements et suggestion de contenus dans les médias sociaux
The ease of publishing content on social media sites brings to the Web an ever increasing amount of user generated content captured during, and associated with, real life events. Social media documents shared by users often reflect their personal experience of the event. Hence, an event can be seen as a set of personal and local views, recorded by different users. These event records are likely to exhibit similar facets of the event but also specific aspects. By linking different records of the same event occurrence we can enable rich search and browsing of social media events content. Specifically, linking all the occurrences of the same event would provide a general overview of the event. In this dissertation we present a content-based approach for leveraging the wealth of social media documents available on the Web for event identification and characterization. To match event occurrences in social media, we develop a new visual-based method for retrieving events in huge photocollections, typically in the context of User Generated Content. The main contributions of the thesis are the following : (1) a new visual-based method for retrieving events in photo collections, (2) a scalable and distributed framework for Nearest Neighbors Graph construction for high dimensional data, (3) a collaborative content-based filtering technique for selecting relevant social media documents for a given event

18

Trad, Riadh. "Découverte d'évènements par contenu visuel dans les médias sociaux." Thesis, Paris, ENST, 2013. http://www.theses.fr/2013ENST0030/document.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

L’évolution du web, de ce qui était typiquement connu comme un moyen de communication à sens unique en mode conversationnel, a radicalement changé notre manière de traiter l’information. Des sites de médias sociaux tels que Flickr et Facebook, offrent des espaces d’échange et de diffusion de l’information. Une information de plus en plus riche, mais aussi personnelle, et qui s’organise, le plus souvent, autour d’événements de la vie réelle. Ainsi, un événement peut être perçu comme un ensemble de vues personnelles et locales, capturées par différents utilisateurs. Identifier ces différentes instances permettrait, dès lors, de reconstituer une vue globale de l’événement. Plus particulièrement, lier différentes instances d’un même événement profiterait à bon nombre d’applications tel que la recherche, la navigation ou encore le filtrage et la suggestion de contenus. L’objectif principal de cette thèse est l’identification du contenu multimédia, associé à un événement dans de grandes collections d’images. Une première contribution est une méthode de recherche d’événements basée sur le contenu visuel. La deuxième contribution est une approche scalable et distribuée pour la construction de graphes des K plus proches voisins. La troisième contribution est une méthode collaborative pour la sélection de contenu pertinent. Plus particulièrement, nous nous intéresserons aux problèmes de génération automatique de résumés d’événements et suggestion de contenus dans les médias sociaux
The ease of publishing content on social media sites brings to the Web an ever increasing amount of user generated content captured during, and associated with, real life events. Social media documents shared by users often reflect their personal experience of the event. Hence, an event can be seen as a set of personal and local views, recorded by different users. These event records are likely to exhibit similar facets of the event but also specific aspects. By linking different records of the same event occurrence we can enable rich search and browsing of social media events content. Specifically, linking all the occurrences of the same event would provide a general overview of the event. In this dissertation we present a content-based approach for leveraging the wealth of social media documents available on the Web for event identification and characterization. To match event occurrences in social media, we develop a new visual-based method for retrieving events in huge photocollections, typically in the context of User Generated Content. The main contributions of the thesis are the following : (1) a new visual-based method for retrieving events in photo collections, (2) a scalable and distributed framework for Nearest Neighbors Graph construction for high dimensional data, (3) a collaborative content-based filtering technique for selecting relevant social media documents for a given event

19

Omhover, Jean-François. "Recherche d'images par similarité de contenus régionaux." Paris 6, 2004. http://www.theses.fr/2004PA066254.

Full text

APA, Harvard, Vancouver, ISO, and other styles

20

Houissa, Mohamed Hichem. "Recherche par thésaurus visuel et composition spatiale dans les bases d'images." Paris 11, 2007. http://www.theses.fr/2007PA11A001.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Les systèmes usuels proposent à l'utilisateur de sélectionner une image ou une région requête soit tirée de la base soit issue d'une collection externe. Nous nous sommes penchés sur le cas où l'exemple n'existe pas ou n'est pas approprié à l'image mentale que se fait l'utilisateur d'une cible donnée. Le paradigme du Thésaurus Visuel permet de générer des catégories de régions segmentées dont les représentants sont proposés comme une page zéro à l'utilisateur pour composer sa requête mentale en sélectionnant les patchs visuels à sa guise. Nous nous sommes intéressés dans ce travail à la génération des résumés visuels des bases d'images selon la complexité des régions et suivant les schémas de descriptions associés. La segmentation grossière des images génère des composantes visuelles dont la description par des attributs photométriques globaux tels que des distributions de couleurs quantifiées ne permet pas d'englober toute l'information photométrique sous-jacente. Les descripteurs locaux extraits autour des points d'intérêt de Harris complètent le schéma de description global et infèrent une robustesse à la catégorisation des régions. Cette dernière fait appel à des algorithmes de compétition agglomérative et d'autres relationnels couplés à des mesures de similarité non-traditionnelles pour obtenir des catégories de régions visuellement et structurellement cohérentes. Cette nouvelle approche est exploitée pour la composition logique et spatiale des patchs pour satisfaire la requête mentale de l'utilisateur. Les items de la page zéro sont les représentants des catégories de régions dont l'orientation spatiale relative est décrite au moyen d'un histogramme angulaire pondéré qui s'adapte à la régularité et à la distribution des pixels dans la région. Les requêtes se décomposent en une partie logique et une autre spatiale dont les résultats sont retournés en utilisant des tables d'associations et des intersections d'histogrammes respectivement
The choice of the starting example is an important issue for content-based image retrieval approaches. Usual systems suggest to the user to look for images similar to the one he selected either among the database itself or from an external image collection; the results are retrieved according to specific metrics suitable with extracted descriptors. In this work, we investigated the case of a missing or at least inappropriate starting example and hence the need of mental image composition in order to initiate the search process. To do so, the paradigm of Visual Thesaurus stands for a visual summary of all regions of the database, these segmented regions are clustered into coherent categories from which we select the representatives to compose the initial "page zero". Our interest was oriented toward the construction of a reliable visual thesaurus that meets the requirements of coarse segmentation and wide variability in region's photometric and structural complexity. Global attributes are suitable to likely homogenous regions whereas fine local descriptors through Harris points of interest infer robustness and visual coherence to the categorization step. The clustering requires, on the one hand, fuzzy agglomerative algorithms but also, in case of textured patterns, relational dual formulation depending mainly on the dimension of the description space. The objective of our work is to provide an alternative to starting example by composing the mental query through the arrangement of the visual patches selected from the Visual Thesaurus. Pairs of regions are described by a weighted angular spatial histogram to determine the orientation between an argument region and a referent one. Accordingly, both logical and spatial compositions are involved; returned results rely on inverted files indexation and histogram intersection metrics respectively

21

Hamroun, Mohamed. "Indexation et recherche par contenu visuel, sémantique et multi-niveaux des documents multimédia." Thesis, Bordeaux, 2019. http://www.theses.fr/2019BORD0372.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Suite aux derniers progrès technologiques, la quantité de données multimédias ne cesse d'augmenter. Dans ce contexte, le problème qui se pose est comment exploiter efficacement ces données ? il est nécessaire de mettre en place des outils facilitant leur accès et leur manipulation.Pour répondre à ces besoins, nous avons proposé, tout d’abord, un modèle d’indexation et de recherche de planes vidéos (ou images) par son contenu visuel (ISE). Les fonctionnalités innovantes d'ISE sont les suivantes : (i) définition d'un nouveau descripteur "PMC" et (ii) application de l'algorithme génétique (AG) pour améliorer la recherche (PMGA).Ensuite, nous nous sommes intéressés à la détection des concepts dans les plans vidéo (Approche LAMIRA). Dans ce même contexte, nous avons proposé une méthode d’annotation semi-automatique des plans vidéo afin d’améliorer la qualité d’indexation basée sur l’AG.Puis, nous avons fourni une méthode d’indexation sémantique séparant le niveau donné, d’un niveau conceptuel et d’un autre, plus abstrait, contextuel. Ce nouveau système intègre, aussi, des mécanismes d’expansion de la requête et de retour de pertinence. Pour donner plus de fluidité dans la requête utilisateur, l’utilisateur peut effectuer une recherche par navigation sur les trois niveaux d’abstraction. Deux systèmes appelés VISEN et VINAS ont été mis en place pour valider ces dernières positions.Finalement, un Framework SIRI a été propose sur la base d’une fusion multi-niveaux combinant nos 3 systèmes : ISE, VINAS et VISEN. Ce Framework fournit une représentation bidimensionnelle de vecteurs descripteurs (haut niveau et bas niveau) pour chaque image
Due to the latest technological advances, the amount of multimedia data is constantly increasing. In this context, the problem is how to effectively use this data? it is necessary to set up tools to facilitate its access and manipulation.To achieve this goal, we first propose an indexation and retrieval model for video shots (or images) by their visual content (ISE). The innovative features of ISE are as follows: (i) definition of a new descriptor "PMC" and (ii) application of the genetic algorithm (GA) to improve the retrieval (PMGA).Then, we focus on the detection of concepts in video shots (LAMIRA approach). In the same context, we propose a semi-automatic annotation method for video shots in order to improve the quality of indexation based on the GA.Then, we provide a semantic indexation method separating the data level from a conceptual level and a more abstract, contextual level. This new system also incorporates mechanisms for expanding the request and relevance feedback. To add more fluidity to the user query, the user can perform a navigation using the three levels of abstraction. Two systems called VISEN and VINAS have been set up to validate these last positions.Finally, a SIRI Framework was proposed on the basis of a multi-level indexation combining our 3 systems: ISE, VINAS and VISEN. This Framework provides a two-dimensional representation of features (high level and low level) for each image

22

Bursuc, Andrei. "Indexation et recherche de contenus par objet visuel." Phd thesis, Ecole Nationale Supérieure des Mines de Paris, 2012. http://pastel.archives-ouvertes.fr/pastel-00873966.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

La question de recherche des objets vidéo basés sur le contenu lui-même, est de plus en plus difficile et devient un élément obligatoire pour les moteurs de recherche vidéo. Cette thèse présente un cadre pour la recherche des objets vidéo définis par l'utilisateur et apporte deux grandes contributions. La première contribution, intitulée DOOR (Dynamic Object Oriented Retrieval), est un cadre méthodologique pour la recherche et récupération des instances d'objets vidéo sélectionnés par un utilisateur, tandis que la seconde contribution concerne le support offert pour la recherche des vidéos, à savoir la navigation dans les vidéo, le système de récupération de vidéos et l'interface avec son architecture sous-jacente.Dans le cadre DOOR, l'objet comporte une représentation hybride obtenues par une sur-segmentation des images, consolidé avec la construction des graphs d'adjacence et avec l'agrégation des points d'intérêt. L'identification des instances d'objets à travers plusieurs vidéos est formulée comme un problème d'optimisation de l'énergie qui peut approximer un tache NP-difficile. Les objets candidats sont des sous-graphes qui rendent une énergie optimale vers la requête définie par l'utilisateur. Quatre stratégies d'optimisation sont proposées: Greedy, Greedy relâché, recuit simulé et GraphCut. La représentation de l'objet est encore améliorée par l'agrégation des points d'intérêt dans la représentation hybride, où la mesure de similarité repose sur une technique spectrale intégrant plusieurs types des descripteurs. Le cadre DOOR est capable de s'adapter à des archives vidéo a grande échelle grâce à l'utilisation de représentation sac-de-mots, enrichi avec un algorithme de définition et d'expansion de la requête basée sur une approche multimodale, texte, image et vidéo. Les techniques proposées sont évaluées sur plusieurs corpora de test TRECVID et qui prouvent leur efficacité.La deuxième contribution, OVIDIUS (On-line VIDeo Indexing Universal System) est une plate-forme en ligne pour la navigation et récupération des vidéos, intégrant le cadre DOOR. Les contributions de cette plat-forme portent sur le support assuré aux utilisateurs pour la recherche vidéo - navigation et récupération des vidéos, interface graphique. La plate-forme OVIDIUS dispose des fonctionnalités de navigation hiérarchique qui exploite la norme MPEG-7 pour la description structurelle du contenu vidéo. L'avantage majeur de l'architecture propose c'est sa structure modulaire qui permet de déployer le système sur terminaux différents (fixes et mobiles), indépendamment des systèmes d'exploitation impliqués. Le choix des technologies employées pour chacun des modules composant de la plate-forme est argumentée par rapport aux d'autres options technologiques.

23

Le, Cacheux Yannick. "Toward more practical zero-shot learning." Electronic Thesis or Diss., Paris, CNAM, 2020. http://www.theses.fr/2020CNAM1282.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Cette thèse porte sur la reconnaissance visuelle "zero-shot", qui vise à classifier des images de catégories non rencontrées par le modèle pendant la phase d’apprentissage. Après avoir classé les méthodes existantes en trois grandes catégories, nous défendons l’idée que les méthodes dites de classement se basent habituellement sur plusieurs hypothèses implicites préjudiciables. Nous proposons d’adapter leur fonction de coût pour leur permettre d’intégrer des relations inter et intra-classe. Nous proposons également un processus permettant de diminuer l’écart entre les performances sur les classes vues et non vues dont souffrent fréquemment ces méthodes. Dans notre évaluation expérimentale, ces contributions permettent à notre modèle d’égaler ou surpasser les performances des méthodes génératives, tant en étant moins restrictif. Dans un second temps, nous nous intéressons aux représentations sémantiques utilisées dans un contexte d’application à grande échelle. Dans ce contexte, l’information sémantique provient généralement de plongements lexicaux des noms de classe. Nous soutenons que les plongements habituels souffrent d’un manque de contenu visuel dans les corpus servant à leur apprentissage. Nous proposons donc de nouveaux corpus de texte davantage connotés visuellement, ainsi qu’une méthode permettant d’adapter les modèles de plongement à ces corpus. Nous proposons en outre de compléter ces représentations non supervisées par de courtes descriptions en langage naturel, dont la production ne requiert qu’un effort minimal comparé à des attributs génériques
This thesis focuses on zero-shot visual recognition, which aims to recognize images from unseen categories, i.e. categories not seen by the model during training. After categorizing existing methods into three main families, we argue that ranking methods habitually make several detrimental implicit assumptions. We propose to adapt the usual formulation of the hinge rank loss so that such methods may take inter and intra-class relations into account. We also propose a simple process to address the gap between accuracies on seen and unseen classes, from which these methods frequently suffer in a generalized zero-shot learning setting. In our experimental evaluation, the combination of these contributions enables our proposed model to equal or surpass the performance of generative methods, while being arguably less restrictive. In a second part, we focus on the semantic representations used in a large-scale zero-shot learning setting. In this setting, semantic information customarily comes from word embeddings of the class names. We argue that usual embeddings suffer from a lack of visual content in training corpora. We thus propose new visually oriented text corpora as well as a method to adapt word embedding models to these corpora. We further propose to complete unsupervised representations with short descriptions in natural language, whose generation requires minimal effort when compared to extensive attributes

24

Hafiane, Adel. "CARACTERISATION DE TEXTURES ET SEGMENTATION POUR LA RECHERCHE D'IMAGES PAR LE CONTENU." Phd thesis, Université Paris Sud - Paris XI, 2005. http://tel.archives-ouvertes.fr/tel-00097977.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Dans cette thèse nous avons élaboré puis automatisé une chaîne complète de recherche d'image par le contenu. Ceci nous a permis de définir une "sémantique limitée" relative à la satisfaction de l'utilisateur quant à la réponse du système. Notre approche est locale c'est-à-dire basée sur les régions de l'image. La décomposition en entités visuelles permet d'exhiber des interactions entres celles-ci et du coup faciliter l'accès à un niveau d'abstraction plus élevé. Nous avons considéré plus particulièrement trois points de la chaîne : l'extraction de régions fiables, leur caractérisation puis la mesure de similarité. Nous avons mis au point une méthode de type C-moyennes floues avec double contrainte spatiale et pyramidale. La classification d'un pixel donné est contrainte à suivre le comportement de ses voisins dans le plan de l'image et de ses ancêtres dans la pyramide. Pour la caractérisation des régions deux méthodes ont été proposées basées sur les courbes de Peano. La première repose sur un principe grammatical et la deuxième manipule le spectre par l'utilisation des filtres de Gabor. La signature de l'image requête ou cible consiste en une liste d'entités visuelles. La mesure de similarité entre entités guide l'appariement. Nous avons élaboré une méthode basée sur la mise en correspondance dans les deux sens, requête vers cible et vice versa, afin de donner indépendamment une grande priorité aux éléments qui se préfèrent mutuellement. Chaque partie du système a été testée et évaluée séparément puis ramenée à l'application CBIR. Notre technique a été évaluée sur des images aériennes (et ou satellitaires). Les résultats en terme de "rappel-précision" sont satisfaisants comparé notamment aux méthodes classiques type matrice de co-occurrence des niveaux de gris et Gabor standard. Pour ouvrir sur de futures extensions et montrer la généralité de notre méthode, la conclusion explique sa transposition à la recherche de situations en conduite automobile, au prix d'une adaptation limitée des paramètres.

25

Hlaoui, Adel. "Contribution en appariement de graphes pour la recherche d'images par le contenu." Thèse, Université de Sherbrooke, 2004. http://savoirs.usherbrooke.ca/handle/11143/5050.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Cette thèse s’inscrit dans le cadre général de la reconnaissance de formes structurelles. Elle s’intéresse plus particulièrement à la modélisation des formes par les graphes. L’utilisation de graphes est motivée par le double intérêt qu’apportent ces derniers pour modéliser tous les objets d’une forme donnée et toutes les relations inter objets nécessaires pour la reconnaissance. Un exemple typique utilisé dans cette thèse est celui de la recherche d’images par le contenu (RIPC). Cependant, les techniques présentées dans cette thèse ont un champ plus vaste que la RIPC. La représentation des images par des graphes implique le recours à des algorithmes d’appariement de graphes afin de comparer et de détecter la similarité entre les images. Par ailleurs la recherche dans une base de données d’image nécessite une réorganisation préalable de la base afin de faciliter la recherche, ce qui nous conduit à faire appel à des techniques de classification des images représentées par des graphes. Dans un premier temps, nous proposons un nouvel algorithme pour mettre en correspondance un graphe requête et un graphe modèle. L’idée de base est de diviser le processus de recherche des correspondances en plusieurs phases (K). À l’issue de chaque phase, l’ensemble des correspondances est extrait, évalué et finalement comparé à celui dont le coût de correspondance est minimal. Dans un deuxième temps, nous proposons un nouvel algorithme pour identifier un représentant appelé Graphe Médian, parmi un ensemble de graphes. Le rôle du graphe médian est capital pour la classification et la réorganisation d’une base de données image utilisant les graphes pour représenter son contenu. Finalement, nous proposons un système de recherche d’images par le contenu utilisant les graphes pour représenter leur contenu et les deux algorithmes précédemment décrits. D’une manière générale, les résultats présentés dans cette thèse montrent l’intérêt potentiel d’utiliser les graphes pour représenter les formes. Ces résultats semblent valider le choix judicieux des graphes comme une solution de remplacement aux structures de données classiques à savoir les vecteurs. De plus, on voit clairement à travers les résultats obtenus que les algorithmes, développés dans cette thèse, pourront jouer un rôle primordial comme un outil de mesure de similarité dans un espace aussi complexe que les graphes.

26

Ksantini, Riadh. "Recherche d'images par le contenu, analyse multirésolution et modèles de régression logistique." Thèse, Université de Sherbrooke, 2007. http://savoirs.usherbrooke.ca/handle/11143/5088.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Cette thèse, présente l'ensemble de nos contributions relatives à la recherche d'images par le contenu à l'aide de l'analyse multirésolution ainsi qu'à la classification linéaire et nonlinéaire. Dans la première partie, nous proposons une méthode simple et rapide de recherche d'images par le contenu. Pour représenter les images couleurs, nous introduisons de nouveaux descripteurs de caractéristiques qui sont des histogrammes pondérés par le gradient multispectral. Afin de mesurer le degré de similarité entre deux images d'une façon rapide et efficace, nous utilisons une pseudo-métrique pondérée qui utilise la décomposition en ondelettes et la compression des histogrammes extraits des images. Les poids de la pseudo-métrique sont ajustés à l'aide du modèle classique de régression logistique afin d'améliorer sa capacité à discriminer et la précision de la recherche. Dans la deuxième partie, nous proposons un nouveau modèle bayésien de régression logistique fondé sur une méthode variationnelle. Une comparaison de ce nouveau modèle au modèle classique de régression logistique est effectuée dans le cadre de la recherche d'images. Nous illustrons par la suite que le modèle bayésien permet par rapport au modèle classique une amélioration notoire de la capacité à discriminer de la pseudo-métrique et de la précision de recherche. Dans la troisième partie, nous détaillons la dérivation du nouveau modèle bayésien de régression logistique fondé sur une méthode variationnelle et nous comparons ce modèle au modèle classique de régression logistique ainsi qu'à d'autres classificateurs linéaires présents dans la littérature. Nous comparons par la suite, notre méthode de recherche, utilisant le modèle bayésien de régression logistique, à d'autres méthodes de recherches déjà publiées. Dans la quatrième partie, nous introduisons la sélection des caractéristiques pour améliorer notre méthode de recherche utilisant le modèle introduit ci-dessus. En effet, la sélection des caractéristiques permet de donner automatiquement plus d'importance aux caractéristiques qui discriminent le plus et moins d'importance aux caractéristiques qui discriminent le moins. Finalement, dans la cinquième partie, nous proposons un nouveau modèle bayésien d'analyse discriminante logistique construit à l'aide de noyaux permettant ainsi une classification nonlinéaire flexible.

27

Fournier, Jérôme. "Indexation d'images par le contenu et recherche interactive dans les bases généralistes." Cergy-Pontoise, 2002. http://biblioweb.u-cergy.fr/theses/02CERG0157.pdf.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Nous nous intéressons à l'indexation et à la recherche des images par le contenu dans les bases généralistes. Nous présentons un système opérationnel nommé RETIN. Du point de vue indexation, nous proposons un traitement automatique et portons une attention particulière à la réduction de dimension et à l'augmentation de l'efficacité des signatures. Du point de vue recherche, nous utilisons le principe de la recherche-par-similarité et du bouclage de pertinence pour réduire le décalage entre l'information bas niveau extraite de l'image et la requête haut niveau de l'utilisateur. Nous proposons la mise à jour de la fonction de similarité ainsi qu'une stratégie d'exploration de la base pour la construction interactive d'une requête multiple. En outre, nous proposons une technique d'apprentissage à long-terme des similarités, basée sur les recherches passées pour le regroupement des images de la base en grandes catégories
This thesis deals with content-based image indexing and retrieval in general databases. We introduce an operational system named RETIN. From the indexing point of view, we propose an automatic processing in order to compute the image signatures. We also pay attention to dimensionality reduction and retrieval effectiveness improvement of signatures. From the retrieval point of view, we use the search-by-similarity and the relevance feedback principles in order to reduce the gap between the low-level information extracted from images and the high-level user's request. We propose a new method for the similarity function refinement and an exploration strategy for the interactive construction of a multiple request. Moreover, we introduce a long-term similarity learning technique, based on former retrieval sessions, which allows to cluster images into broad categories

28

Manjarrez, Sanchez Jorge Roberto. "Recherche par le contenu efficiente dans les bases de données parallèles d'images." Nantes, 2009. http://www.theses.fr/2009NANT2089.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Cette thèse porte sur le traitement des requêtes par similarité sur les données de haute dimensionnalité, notamment multimédias, et, parmi elles, les images plus particulièrement. Ces requêtes, notamment celles des k plus proches voisins (kNN), posent des problèmes de calcul de par la nature des données elles-mêmes et de la taille de la base des données. Nous avons étudié leurs performances quand une méthode de partitionnement est appliquée sur la base de données pour obtenir et exploiter des classes. Nous avons proposé une taille et un nombre optimaux de ces classes pour que la requête puisse être traitée en temps optimal et avec une haute précision. Nous avons utilisé la recherche séquentielle comme base de référence. Ensuite nous avons proposé des méthodes de traitement de requêtes parallèles sur une grappe de machines. Pour cela, nous avons proposé des méthodes d'allocation des données pour la recherche efficace des kNN en parallèle. Nous proposons de même, un nombre réduit de noeuds sur la grappe de machines permettant néanmoins des temps de recherche sous-linéaires et optimaux vis-à-vis des classes déterminées précédemment. Nous avons utilisé des donnés synthétiques et réelles pour les validations pratiques. Dans les deux cas, nous avons pu constater des temps de réponse et une qualité des résultats supérieurs aux méthodes existantes, lesquelles, au-delà d'un faible nombre des dimensions, deviennent inefficaces
In this thesis, we address the performance problem when searching in large databases of images. The processing of similarity queries is a computational challenge because of the dimensionality of the abstract representation for the images and size of the databases. We present two data organization methods that account for performance improvement. The first one is based on the clustering of the database in centralized settings. We derive an optimal range of values for the number of clusters to obtain from a database, which in conjunction with a searching algorithm allows to efficiently process nearest neighbor queries. However as the dimensionality and size of the database increase, a single computer is overwhelmed. The second method is based on data partitioning over a shared nothing machine. Based on the results of the first method, this method maximizes parallelism. We also derive the optimal number of processing nodes to maximize resource utilization. We performed extensive experiments with synthetic and real databases. They validate the proposals and show that the performance level is superior to existing approaches which beyond a certain dimensionality or database size become inefficient

29

Hafiane, Adel. "Caractérisation de textures et segmentation pour la recherche d'images par le contenu." Paris 11, 2005. http://www.theses.fr/2005PA112339.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

"Dans cette thèse nous avons élaboré puis automatisé une chaîne complète de recherche d'image par le contenu. Ceci nous a permis de définir une sémantique limitée relative à la satisfaction de l'utilisateur quant à la réponse du système. Notre approche est locale c'est-à-dire basée sur les régions de l'image. La décomposition en entités visuelles permet d'exhiber des interactions entres celles-ci et du coup faciliter l'accès à un niveau d'abstraction plus élevé. Nous avons considéré plus particulièrement trois points de la chaîne : l'extraction de régions fiables, leur caractérisation puis la mesure de similarité. Nous avons mis au point une méthode de type C-moyennes floues avec double contrainte spatiale et pyramidale. La classification d'un pixel donné est contrainte à suivre le comportement de ses voisins dans le plan de l'image et de ses ancêtres dans la pyramide. Pour la caractérisation des régions deux méthodes ont été proposées basées sur les courbes de Peano. La première repose sur un principe grammatical et la deuxième manipule le spectre par l'utilisation des filtres de Gabor. La signature de l'image requête ou cible consiste en une liste d'entités visuelles. La mesure de similarité entre entités guide l'appariement. Nous avons élaboré une méthode basée sur la mise en correspondance dans les deux sens, requête vers cible et vice versa, afin de donner indépendamment une grande priorité aux éléments qui se préfèrent mutuellement. Chaque partie du système a été testée et évaluée séparément puis ramenée à l'application CBIR. Notre technique a été évaluée sur des images aériennes (et ou satellitaires). Les résultats en terme de"rappel-précision" sont satisfaisants comparé notamment aux méthodes classiques type matrice de co-occurrence des niveaux de gris et Gabor standard. Pour ouvrir sur de futures extensions et montrer la généralité de notre méthode, la conclusion explique sa transposition à la recherche de situations en conduite automobile, au prix d'une adaptation limitée des paramètres. "
This thesis describes the design and realization of a complete processing chain for content based image retrieval (CBIR). The study allows to define some limited semantics with respect to the user's satisfaction from the system response. The image is decomposed on visual entities to obtain interactions between them, allowing to reach higher levels of abstraction. We have addressed three points in the chain : reliable region-detection, region characterization and then similarity measure. We have modified a Fuzzy C-means by incorporating the spatial and multiresolution information into the objective function. Therefore, the classification of a given point is forced to follow both neighbors and ancestors in a pyramidal representation. Two methods are proposed which exploit Peano scans to coding region features. The first one is based on a grammatical representation of the pixels neighborhood called motif. The second method modifies the spectrum before to apply Gabor filters. The image signature consists of a list of visual entities containing features. The similarity measure between two images turns into a graph matching problem. We have elaborated a technique that allows a bidirectional matching from query to target and vice versa. A high priority is assigned to those elements which prefer mutually. Each part of the system is evaluated and tested independently then incorporated into the CBIR application. The evaluation of CBIR in terms of "recall-precision" shows that the proposed methods perform better than classical ones, such as grey level co-occurrence matrix and Gabor filters. To open on further extensions and suggest the generality of out method, the conclusion deals with extending it to the situation assessment in car driving, with limited tuning of parameters

30

Zhou, Zhyiong. "Recherche d'images par le contenu application à la proposition de mots clés." Thesis, Poitiers, 2018. http://www.theses.fr/2018POIT2254.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

La recherche d'information dans des masses de données multimédia et l'indexation de ces grandes bases d'images par le contenu sont des problématiques très actuelles. Elles s'inscrivent dans un type de gestion de données qu'on appelle le Digital Asset Management (ou DAM) ; Le DAM fait appel à des techniques de segmentation d'images et de classification de données. Nos principales contributions dans cette thèse peuvent se résumer en trois points :- Analyse des utilisations possibles des différentes méthodes d'extraction des caractéristiques locales en exploitant la technique de VLAD.- Proposition d'une nouvelle méthode d'extraction de l'information relative à la couleur dominante dans une image.- Comparaison des Machine à Supports de Vecteur (SVM - Support Vector Machine) à différents classifieurs pour la proposition de mots clés d'indexation. Ces contributions ont été testées et validées sur des données de synthèse et sur des données réelles. Nos méthodes ont alors été largement utilisées dans le système DAM ePhoto développé par la société EINDEN, qui a financé la thèse CIFRE dans le cadre de laquelle ce travail a été effectué. Les résultats sont encourageants et ouvrent de nouvelles perspectives de recherche
The search for information in masses of multimedia data and the indexing of these large databases by the content are very current problems. They are part of a type of data management called Digital Asset Management (or DAM) ; The DAM uses image segmentation and data classification techniques.Our main contributions in this thesis can be summarized in three points : - Analysis of the possible uses of different methods of extraction of local characteristics using the VLAD technique.- Proposed a new method for extracting dominant color information in an image.- Comparison of Support Vector Machines (SVM) to different classifiers for the proposed indexing keywords. These contributions have been tested and validated on summary data and on actual data. Our methods were then widely used in the DAM ePhoto system developed by the company EINDEN, which financed the CIFRE thesis in which this work was carried out. The results are encouraging and open new perspectives for research

31

Souvannavong, Fabrice. "Indexation et recherche de plans videos par le contenu sémantique." Paris, ENST, 2005. http://www.theses.fr/2005ENST0018.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Nous abordons dans ce mémoire le problème délicat de l'indexation de plans vidéo et en particulier l'indexation automatique par le contenu sémantique. L'indexation est l'opération qui consiste à extraire une signature numérique ou textuelle qui décrit le contenu de manière précise et concise afin de permettre une recherche efficace dans une base de données. L'aspect automatique de l'indexation est important puisque nous imaginons bien la difficulté d'établir les signatures manuellement sur de grandes quantités de données. Jusqu'à présent les systèmes automatiques d'indexation et de recherche d'images ou de vidéos se sont concentrés sur la description et l'indexation du contenu purement visuel. Les signatures permettaient d'effectuer une recherche principalement sur les couleurs et les textures des images. A présent, le nouveau défi est d'ajouter à ces signatures une description sémantique du contenu de manière automatique. Un éventail des techniques utilisées pour l'indexation du contenu visuel est tout d'abord présenté. Ensuite nous introduisons une méthode pour calculer une signature précise et compacte à partir des régions des images clefs des plans. Il s'agit d'une adaptation de l'analyse de la sémantique latente qui fut initialement introduite pour indexer le texte. La tâche délicate de la recherche par le contenu sémantique est ensuite abordée. Les expériences sont conduites dans le cadre de l'évaluation TRECVID qui nous permet d'obtenir une grande quantité de vidéo avec leurs annotations. Nous poursuivons la classification sémantique en étudiant la fusion de systèmes de classification. Finalement nous introduisons une nouvelle méthode d'apprentissage actif
In this thesis, we address the fussy problem of video content indexing and retrieval and in particular automatic semantic video content indexing. Indexing is the operation that consists in extracting a numerical or textual signature that describes the content in an accurate and concise manner. The objective is to allow an efficient search in a database. The automatic aspect of the indexing is important since we can imagine the difficulty to annotate video shots in huge databases. Until now, systems were concentrated on the description and indexing of the visual content. The search was mainly led on colors and textures of video shots. The new challenge is now to automatically add to these signatures a semantic description of the content. First, a range of indexing techniques is presented. Second, we introduce a method to compute an accurate and compact signature from key-frames regions. This method is an adaptation of the latent semantic indexing method originally used to index text documents. Third, we address the difficult task of semantic content retrieval. Experiments are led in the framework of TRECVID. It allows having a huge amount of videos and their labels. Fourth, we pursue on the semantic classification task through the study of fusion mechanisms. Finally, this thesis concludes on the introduction of a new active learning approach to limit the annotation effort

32

Letessier, Pierre. "Découverte et exploitation d'objets visuels fréquents dans des collections multimédia." Thesis, Paris, ENST, 2013. http://www.theses.fr/2013ENST0014/document.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

L’objectif principal de cette thèse est la découverte d’objets visuels fréquents dans de grandes collections multimédias (images ou vidéos). Comme dans de nombreux domaines (ﬁnance, génétique, . . .), il s’agit d’extraire une connaissance de manière automatique ou semi-automatique en utilisant la fréquence d’apparition d’un objet au sein d’un corpus comme critère de pertinence. Une première contribution de la thèse est de fournir un formalisme aux problèmes de découverte et de fouille d’instances d’objets visuels fréquents. La deuxième contribution de la thèse est une méthode générique de résolution de ces deux types de problème reposant d’une part sur un processus itératif d’échantillonnage d’objets candidats et d’autre part sur une méthode efﬁcace d’appariement d’objets rigides à large échelle. La troisième contribution de la thèse s’attache à construire une fonction de vraisemblance s’approchant au mieux de la distribution parfaite, tout en restant scalable et efﬁcace. Les expérimentations montrent que contrairement aux méthodes de l’état de l’artnotre approche permet de découvrir efﬁcacement des objets de très petite taille dans des millions d’images. Pour ﬁnir, plusieurs scénarios d’exploitation des graphes visuels produits par notre méthode sont proposées et expérimentés. Ceci inclut la détection d’évènements médiatiques transmédias et la suggestion de requêtes visuelles
The main goal of this thesis is to discover frequent visual objects in large multimedia collections. As in many areas (ﬁnance, genetics, . . .), it consists in extracting a knowledge, using the occurence frequency of an object in a collection as a relevance criterion. A ﬁrst contribution is to provide a formalism to the problems of mining and discovery of frequent visual objects. The second contribution is a generic method to solve these two problems, based on an iterative sampling process, and on an efﬁcient and scalable rigid objects matching. The third contribution of this work focuses on building a likelihood function close to the perfect distribution. Experiments show that contrary to state-of-the-art methods, our approach allows to discover efﬁciently very small objects in several millions images. Finally, several applications are presented, including trademark logos discovery, transmedia events detection or visual-based query suggestion

33

Ordon︢ez, Varela John Richard. "Indexation et recherche d'images par le contenu, utilisant des informations de compression d'images : application aux images médicales." Rennes 1, 2004. http://www.theses.fr/2004REN10009.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Cette thèse est consacrée à la recherche d'images médicales par leur contenu numérique, en utilisant les informations fournies par des processus de compression d'images. Deux axes principaux de recherche ont été développés. Le premier s'appuie sur une analyse de l'image par quantification vectorielle, qui a conduit à l'élaboration de signatures associées aux images dans la base : les cartes d'activationsʺ. Plusieurs métriques de similitude entre cartes ont été étudiées, et d'autres approches pour introduire de l'information spatiale aux signatures ont été développées. Le deuxième axe est basé sur les méthodes de compression JPEG-DCT et JPEG-2000 qui travaillent dans le domaine transformé. Des signatures spatio-fréquentielles mettant à profit les différentes étapes de la chaîne de traitement définie par ces normes sont proposées. Les méthodes de retrouvaille d'images développées sont évaluées quantitativement sur plusieurs bases d'images médicales.

34

Da, Rugna Jérôme. "De l'usage des méthodes bas niveau pour la recherche d'images par le contenu." Saint-Etienne, 2004. http://www.theses.fr/2004STET4015.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

La thématique de ces travaux de thèse est la recherche d'images par le contenu et plus précisément l'apport des méthodes bas niveau. Après avoir discuté des différentes approches existantes, nous rappelons le fossé sémantique entre les attentes de l'utilisateur et ce que proposent réellement les systèmes de recherche. La plupart de ceux-ci reposent sur une étape préalable de segmentation dont la validité et la robustesse se doivent d'être étudiées. Nous proposons alors un protocole d'évaluation objective et un exemple concret de mise en oeuvre. L'originalité consiste à ne pas comparer une segmentation à une référence théorique mais à juger objectivement sa stabilité. La troisième partie de ce document introduit trois contributions ponctuelles susceptibles d'améliorer la chaîne de recherche. Dans un premier temps, un détecteur de flou permet d'extraire une méta-information portée par l'image, les zones nettes a priori de focalisation. Ensuite nous exposons un descripteur basé sur l'extraction de régions émergentes sur le seul critère couleur. Cette extraction, conjuguée avec des distances adaptées, peut permettre par exemple un pré-filtrage couleur en amont de la phase de recherche de similarité proprement dite. Finalement, nous introduisons brièvement une algèbre d'histogrammes pour exploiter au mieux l'information contenue dans ce type de descripteurs, via un langage de requêtes spécifique
The matter of this work is content based image retrievaland more precisely the contribution of the low level methods. After having discussed the various existing approaches, we recall the semantic gap between the user expectations and what really the systems of research propose. Most of these approaches rely on a preliminary step of segmentation whose validity and robustness must be studied. Then we propose a protocol of evaluation and a practical example of benchmarks. The originality consists in not comparing a segmentation with a theoretical reference but judging its stability objectively. The third part of this document introduces three specific contributions likely to improve the chain of research. Initially, a detector of blur allows to extract a meta-data carried by the image: the unblur regions, a priori of focusing. Secondly, we expose a descriptor based on the extraction of emergent areas using only the color criteria. This process, combined with adapted distances, may allow for example a color pre-filtering before the step of similarity research. Finally, we briefly introduce an algebra of histograms able as well as possible to exploit the information contained in this type of descriptors, via a specific query language

35

Abbadeni, Noureddine. "Recherche d'images basée sur le contenu visuel : représentations multiples, similarité et fusion de résultats : cas des images de texture." Thèse, Université de Sherbrooke, 2005. http://savoirs.usherbrooke.ca/handle/11143/5045.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Cette thèse traite de la recherche d’images basée sur le contenu visuel, thème de recherche d’un intérêt certain pour de nombreuses applications ayant toutes en commun l’utilisation et la recherche de l’information visuelle. Nous présentons, dans le cadre de cette thèse, un nouvel algorithme de recherche de textures dans lequel nous traitons les problèmes de représentations multiples du contenu, le problème de la similarité entre les images ainsi que le problème de la fusion de résultats provenant des différentes représentations considérées. Pour ce qui est de la représentation du contenu, deux modèles sont proposés : le modèle autorégressif et un modèle perceptuel basé sur un ensemble de caractéristiques perceptuelles telles que la granularité et la directionalité. Le modèle perceptuel est considéré selon deux points de vue : les images originales et la fonction d’autocovariance associée aux images originales. En ce qui concerne la similarité, un nouveau modèle de similarité basé sur le modèle de Gower est introduit. Cette mesure de similarité est flexible et peut se décliner en plusieurs variantes : une variante non pondérée, une variante pondérée et une variante hiérarchique. Compte tenu de la complexité des images de texture, les différents modèles et points de vue considérés sont mis à contribution à travers des techniques de fusion de résultats appropriées afin de représenter différentes facettes de l’information texturale et ainsi améliorer les performances de recherche. Les techniques de fusion de résultats sont aussi utilisées pour dégager une ébauche de solution au problème de l’invariance à travers une approche par requêtes multiples. Les expérimentations et l’évaluation des modèles proposés dans cette thèse montrent des résultats très appréciables.

36

Qiao, Yongliang. "Place recognition based visual localization in changing environments." Thesis, Bourgogne Franche-Comté, 2017. http://www.theses.fr/2017UBFCA004/document.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Dans de nombreuses applications, il est crucial qu'un robot ou un véhicule se localise, notamment pour la navigation ou la conduite autonome. Cette thèse traite de la localisation visuelle par des méthodes de reconnaissance de lieux. Le principe est le suivant: lors d'une phase hors-ligne, des images géo-référencées de l'environnement d'évolution du véhicule sont acquises, des caractéristiques en sont extraites et sauvegardées. Puis lors de la phase en ligne, il s'agit de retrouver l'image (ou la séquence d'images) de la base d'apprentissage qui correspond le mieux à l'image (ou la séquence d'images) courante. La localisation visuelle reste un challenge car l'apparence et l'illumination changent drastiquement en particulier avec le temps, les conditions météorologiques et les saisons. Dans cette thèse, on cherche alors à améliorer la reconnaissance de lieux grâce à une meilleure capacité de description et de reconnaissance de la scène. Plusieurs approches sont proposées dans cette thèse:1) La reconnaissance visuelle de lieux est améliorée en considérant les informations de profondeur, de texture et de forme par la combinaison de plusieurs de caractéristiques visuelles, à savoir les descripteurs CSLBP (extraits sur l'image couleur et l'image de profondeur) et HOG. De plus l'algorithme LSH (Locality Sensitive Hashing) est utilisée pour améliorer le temps de calcul;2) Une méthode de la localisation visuelle basée sur une reconnaissance de lieux par mise en correspondance de séquence d'images (au lieu d'images considérées indépendamment) et combinaison des descripteurs GIST et CSLBP est également proposée. Cette approche est en particulier testée lorsque les bases d'apprentissage et de test sont acquises à des saisons différentes. Les résultats obtenus montrent que la méthode est robuste aux changements perceptuels importants;3) Enfin, la dernière approche de localisation visuelle proposée est basée sur des caractéristiques apprises automatiquement (à l'aide d'un réseau de neurones à convolution) et une mise en correspondance de séquences localisées d'images. Pour améliorer l'efficacité computationnelle, l'algorithme LSH est utilisé afin de viser une localisation temps-réel avec une dégradation de précision limitée
In many applications, it is crucial that a robot or vehicle localizes itself within the world especially for autonomous navigation and driving. The goal of this thesis is to improve place recognition performance for visual localization in changing environment. The approach is as follows: in off-line phase, geo-referenced images of each location are acquired, features are extracted and saved. While in the on-line phase, the vehicle localizes itself by identifying a previously-visited location through image or sequence retrieving. However, visual localization is challenging due to drastic appearance and illumination changes caused by weather conditions or seasonal changing. This thesis addresses the challenge of improving place recognition techniques through strengthen the ability of place describing and recognizing. Several approaches are proposed in this thesis:1) Multi-feature combination of CSLBP (extracted from gray-scale image and disparity map) and HOG features is used for visual localization. By taking the advantages of depth, texture and shape information, visual recognition performance can be improved. In addition, local sensitive hashing method (LSH) is used to speed up the process of place recognition;2) Visual localization across seasons is proposed based on sequence matching and feature combination of GIST and CSLBP. Matching places by considering sequences and feature combination denotes high robustness to extreme perceptual changes;3) All-environment visual localization is proposed based on automatic learned Convolutional Network (ConvNet) features and localized sequence matching. To speed up the computational efficiency, LSH is taken to achieve real-time visual localization with minimal accuracy degradation

37

Daoudi, Imane. "Recherche par similarité dans les grandes bases de données multimédia : application à la recherche par le contenu dans les bases d'images." Lyon, INSA, 2009. http://theses.insa-lyon.fr/publication/2009ISAL0057/these.pdf.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

L’émergence des données numériques multimédia ne cesse d’augmenter. L’accès, le partage, le stockage et la recherche de ces données sont devenues des besoins réels et les problématiques sont nombreuses et variées. Afin de rendre cette masse d’information facilement exploitable pour tout utilisateur, il est nécessaire de disposer de techniques d’indexation et de recherche rapides et efficaces. Mes travaux de thèse s’inscrivent dans le domaine des données multimédia et plus précisément des images fixes. L’objectif principal est de développer une méthode performante d’indexation et de recherche des k plus proches voisins (kppv) qui soit adaptée à la recherche d’image par le contenu et aux propriétés des descripteurs d’images (grand volume, grande dimension, hétérogénéité, etc. ). Il s’agit d’une part, d’apporter des réponses aux problèmes de passage à l’échelle et de la malédiction de la dimension et d’autre part de traiter les problèmes de mesure de similarité qui se posent, et qui sont liés à la nature des données manipulées. Notre première proposition consiste en l’utilisation d’une structure d’indexation multidimensionnelle basée sur l’approximation ou filtrage, par une amélioration de la méthode RA-Blocks. Elle repose sur un algorithme de découpage de l’espace de données qui améliore notablement la capacité de stockage de l’index ainsi que le temps de la recherche. Dans un deuxième temps, nous proposons une méthode d’indexation multidimensionnelle adaptée à des données hétérogènes (couleur, texture, forme). Notre méthode combine une technique non linéaire de la réduction de la dimension à une structure d’indexation multidimensionnelle basée sur l’approche approximation. Cette combinaison permet de répondre à travers, un formaliste unique, aux différents verrous que nous nous sommes fixés de lever
[The emergence of digital multimedia data is increasing. Access, sharing and retrieval of these data have become the real needs. This requires the use of powerful tools and search engine for fast and efficient access to data. The spectacular growth of technologies and numeric requires the use of powerful tools and search engine for fast and efficient access to data. My thesis work is in the field of multimedia data especially images. The main objectives is to develop a fast and efficient indexing and searching method of the k nearest neighbour which is adapted for applications in Content-based image retrieval (CBIR) and for properties of image descriptors (high volume, large dimension, etc. ). The main idea is on one hand, to provide answers to the problems of scalability and the curse of dimensionality and the other to deal with similarity problems that arise in indexing and CBIR. We propose in this thesis two different approaches. The first uses a multidimensional indexing structure based on approximation approach or filtering, which is an improvement in the RA-Blocks method. The proposed method is based on the proposal of an algorithm of subdividing the data space which improves the storage capacity of the index and the CPU times. In a second approach, we propose a multidimensional indexing method suitable for heterogeneous data (colour, texture, shape). The second proposed method combines a non linear dimensionality reduction technique with a multidimensional indexing approach based on approximation. This combination allows one hand to deal with the curse of dimensionality scalability problems and also to exploit the properties of the non-linear space to find suitable similarity measurement for the nature of manipulated data. ]

38

Hamri, Touati. "Approche probabiliste hybride pour la recherche d'images par le contenu avec pondération des caractéristiques." Mémoire, Université de Sherbrooke, 2007. http://savoirs.usherbrooke.ca/handle/11143/4784.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Durant la dernière décennie, des quantités énormes de documents visuels (images et vidéos) sont produites chaque jour par les scientifiques, les journalistes, les amateurs, etc. Cette quantité a vite démontré la limite des systèmes de recherche d'images par mots clés, d'où la naissance du paradigme qu'on nomme Système de Recherche d'Images par le Contenu, en anglais Content-Based Image Retrieval (CBIR). Ces systèmes visent à localiser les images similaires à une requête constituée d'une ou plusieurs images, à l'aide des caractéristiques visuelles telles que la couleur, la forme et la texture. Ces caractéristiques sont dites de bas-niveau car elles ne reflètent pas la sémantique de l'image. En d'autres termes deux images sémantiquement différentes peuvent produire des caractéristiques bas-niveau similaires. Un des principaux défis de cette nouvelle vision des systèmes est l'organisation de la collection d'images pour avoir un temps de recherche acceptable. Pour faire face à ce défi, les techniques développées pour l'indexation des bases de données textuelles telles que les arbres sont massivement utilisées. Ces arbres ne sont pas adaptés aux données de grandes dimensions, comme c'est le cas des caractéristiques de bas-niveau des images. Dans ce mémoire, nous nous intéressons à ce défi. Nous introduisons une nouvelle approche probabiliste hybride pour l'organisation des collections d'images. Sur une collection d'images organisée hiérarchiquement en noeuds selon la sémantique des images, nous utilisons une approche générative pour l'estimation des mélanges de probabilités qui représentent l'apparence visuelle de chaque noeud dans la collection. Ensuite nous appliquons une approche discriminative pour l'estimation des poids des caractéristiques visuelles. L'idée dans notre travail, est de limiter la recherche seulement aux noeuds qui représentent mieux la sémantique de la requête, ce qui donne une propriété sémantique à la recherche et diminue le fossé sémantique causé par les caractéristiques de bas-niveau.

39

Riadh, Ksantini. "Recherche d'images par le contenu, analyse multirésolution et modèles de régression logistiqueh[ressource électronique] /." [S.l. : s.n.], 2007.

Find full text

APA, Harvard, Vancouver, ISO, and other styles

40

Taïleb, Mounira. "NOHIS-tree nouvelle méthode de recherche de plus proches voisins : application à la recherche d'images par le contenu." Paris 11, 2008. http://www.theses.fr/2008PA112164.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Les tailles des bases d’images ont connu une croissance rapide. Elles peuvent se chiffrer actuellement en millions d’objets ce qui nécessite l’utilisation d’un système de recherche d’images par le contenu. Un tel système consiste tout d’abord en la description automatique des images de la base. Les propriétés visuelles de chaque image sont représentées sous forme de vecteurs multidimensionnels appelés descripteurs. Ensuite, trouver les images similaires à une image requête revient à chercher pour chaque descripteur de l’image requête les descripteurs les plus proches. Dans ce travail de thèse nous proposons une nouvelle méthode d’indexation de bases multidimensionnelles avec une évolution de l’algorithme de recherche de plus proches voisins. L’originalité de notre index multidimensionnel est la création de formes englobantes évitant le chevauchement. En effet, le chevauchement est l’un des principaux inconvénients qui ralentissent la recherche de plus proches voisins. Le nouvel index créé et son algorithme de recherche spécifique permettent d’accélérer la recherche de plus proches voisins tout en effectuant une recherche à l’exact. La méthode que nous avons conçue a été intégrée et évaluée dans un système réel de recherche d’images par le contenu. Les résultats des expérimentations effectuées montrent sa robustesse en termes de précision et de rapidité en temps de recherche
The increasing of image databases requires the use of a content-based image retrieval system (CBIR). A such system consist first to describe automatically the images, visual properties of each image are represented as multidimensional vectors called descriptors. Next, finding similar images to the query image is achieved by searching for the nearest neighbors of each descriptor of the query image. In this thesis, we propose a new method for indexing multidimensional bases with the search algorithm of nearest neighbors adapted. The originality of our multidimensional index is the disposition of the bounding forms avoiding overlapping. Indeed, the overlapping is one of the main drawbacks that slow the search of nearest neighbors search. Our index with its search algorithm speeds the nearest neighbors search while doing an exact search. Our method has been integrated and tested within a real content-based image system. The results of tests carried out show the robustness of our method in terms of accuracy and speed in search time

41

Jai, Andaloussi Said. "Indexation de l'information médicale. Application à la recherche d'images et de vidéos par le contenu." Télécom Bretagne, 2010. http://www.theses.fr/2010TELB0150.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Dans ce travail de thèse, nous nous intéressons à l'utilisation des bases de données médicales multimédia pour l'aide à la décision diagnostique et le suivi thérapeutique. Notre objectif est de définir des méthodes, et un système, pour sélectionner dans les bases de documents multimédia des documents similaires à un document proposé en requête. Ces documents contiennent des informations sous forme texte, numérique, des images et parfois des séquences vidéos. Pour l'aide au diagnostic, l'interrogation du système s'effectue en lui présentant en requête le dossier patient, ou une partie de ce dossier. Notre travail va donc mettre en oeuvre des méthodes relatives au raisonnement à base de cas (CBR : Case Based Reasoning), à la fouille de données, à la recherche d‘images par le contenu (CBIR : Content Based Image Retrieval) et à la rechercher de vidéo par le contenu (CBVR : Content Based Video Retrieval). Les méthodes sont évaluées sur trois bases de données médicales multimodales. La première base de données étudiée est une base d‘images rétiniennes, constituée au LaTIM pour l‘aide au suivi de la rétinopathie diabétique. La seconde base est une base publique de mammographies (Digital Database for Screening Mammography, DDSM University of South Florida). La troisième base de données est une base de video gastro-entérologie constituée aussi au LaTIM. Nous utilisons cette base pour étudier les possibilités d'utilisation des méthodes développées dans le cadre de la recherche d‘images fixes, pour la recherche de séquences vidéos couleurs. Dans la première partie de notre travail, nous cherchons à caractériser individuellement chaque image du dossier patient. Nous avons poursuivi les travaux effectués dans le laboratoire sur l‘utilisation des méthodes globales de caractérisation des images dans le domaine compressé (quantification vectorielle, DCT, JPEG-ondelettes, ondelettes adaptées) pour la recherche d‘images. Les résultats obtenus avec les ondelettes, comparés aux autres méthodes de compression ont montré une grande amélioration en terme de retrouvaille. Cependant, les ondelettes nécessitent la spécification d'un noyau ou d'une fonction de base pour effectuer la décomposition. Pour pallier ce problème, nous avons proposé une méthode originale de caractérisation à partir de la décomposition BEMD des images (Bidimensionnal Empirical Mode Decomposition) : elle permet de décomposer une image en plusieurs modes BIMFs (Bidimensionnel Intrinsic Mode Functions), qui permettent d'accéder à des informations sur le contenu fréquentiel des images. Une des originalités de la méthode provient de l‘auto-adaptativite de la BEMD, qui ne nécessite pas une fonction de base pour effectuer la décomposition. Une fois les images caractérisées, la recherche s'effectue en calculant, au sens d'une métrique donnée, la distance entre la signature de l‘image requête et les signatures des images de la base. Ce calcul permet de sélectionner des images en réponse à la requête en dehors de toute signification sémantique. Pour améliorer le résultat de retrouvaille, nous introduisons une technique d‘optimisation pour le calcul de la distance entre signature, en utilisant les algorithmes génétiques. Nous abordons ensuite le problème de la recherche de vidéos par le contenu. Pour cela, nous introduisons une méthode pour le calcul des signatures vidéo à partir des images clefs extraites par l‘analyse du mouvement. La distance entre signatures video est calculée en utilisant une technique basée sur l‘analyse en composantes principales. Enfin, nous intégrons les travaux précédents dans la requète par dossiers patients, qui contiennent plusieurs images ainsi que des informations textuelles, sémantiques et numériques. Pour cela nous utilisons trois méthodes développées dans le cadre d‘une these récemment soutenue dans notre laboratoire : la première est basée sur les arbres de décision, la deuxième sur les réseaux bayésiens et la troisième sur la théorie de Dezert-Smarandache (DSmT)
This PhD thesis addresses the use of multimedia medical databases for diagnostic decision and therapeutic follow-up. Our goal is to develop methods and a system to select in multimedia databases documents similar to a query document. These documents consist of text information, numeric images and sometimes videos. In the proposed diagnosis aid system, the database is queried with the patient file, or a part of it, as input. Our work therefore involves implementing methods related to Case-Based Reasoning (CBR), datamining, Content Based Image Retrieval (CBIR) and Content Based Video Retrieval (CBVR). These methods are evaluated on three multimodal medical databases. The first database consists of retinal images collected by the LaTIM laboratory for aided diabetic retinopathy follow-up. The second database is a public mammography database (Digital Database for Screening Mammography – DDSM –) collected by the University of South Florida. The third database consists of gastroenterology videos also collected by the LaTIM laboratory. This database is used to discover whether methods developed for fixed image retrieval can also be used for color video retrieval. The first part of this work focuses on the characterization of each image in the patient file. We continued the work started in our laboratory to characterize images globally in the compressed domain (vector quantization, DCT-JPEG, wavelets, adapted wavelets) for image retrieval. Compared to other compression methods, the wavelet decomposition led to a great improvement in terms of retrieval performance. However, the wavelet decomposition requires the specification of a kernel or basis function. To overcome this problem, we proposed an original image characterization method based on the BEMD (Bidimensionnal Empirical Mode Decomposition). It allows decomposing an image into several BIMFs (Bidimensionnal Intrinsic Mode Functions) that provide access to frequency information of the image content. An originality of the method comes from the self-adaptivity of BEMD: it does not require the specification of a basic function. Once images are characterized, a similarity search is performed by computing the distance between the signature of the query image and the signature of each image in the database, given a metric. This process leads to the selection of similar images, without semantic meaning. An optimization process, based on genetic algorithms, is used to adapt the distance metric and thus improve retrieval performance. Then, the problem of content based video retrieval is addressed. A method to generate video signatures is presented. This method relies on key video frames extracted by movement analysis. The distance between video signatures is computed using a Principal Component Analysis (PCA) based technique. Finally, the proposed methods are integrated into the framework of patient file retrieval (each patient file consisting of several images and textual information). Three methods developed during a PhD thesis recently defended in our laboratory are used for patient file retrieval: the first approach is based on decision trees and their extensions, the second on Bayesian networks and the third on the Dezert-Smarandache theory (DSmT).

42

Najjar, Micheline. "Modèles de mélange pour la recherche d'images par le contenu : Applications aux pathologies ostéo-articulaires." Compiègne, 2004. http://www.theses.fr/2004COMP1507.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

L'indexation et la recherche d'images par le contenu demeurent des problèmes importants qui trouvent des applications potentielles en médecine, étant donné la place que l'image numérique médicale occupe à présent dans le quotidien des hôpitaux. Cette thèse présente un système original d'indexation et de recherche d'images médicales pour une application aux images IRM des mains. Il s'adresse au service de Radiologie Ostéo-Articulaire à CHRU de Lille. De tels systèmes existent aujourd'hui quand les images sont annotées par des mots clés. La mise en œuvre d'un algorithme performant de segmentation automatique basée sur les ensembles de niveau permet d'obtenir des représentations pertinentes de l'image. Un index basé sur les attributs des régions est ainsi fabriqué pour coder les connaissances des médecins afin de diagnostiquer une image. Une nouvelle approche, appelée EMiner, de recherche par boucle de pertinence est introduite. Elle est basée sur une classification semi-supervisée de la base des index utilisant les modèles de mélange et l'algorithme EM. La qualité des résultats obtenus pour la recherche d'images pathologiques valide le système proposé.

43

Zhao, Shuji. "Catégorisation par le contenu sémantique d'objets vidéo : recherche et reconnaissance d'acteurs dans les films." Thesis, Cergy-Pontoise, 2011. http://www.theses.fr/2011CERG0511/document.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Dans cette thèse, nous proposons un nouveau système de recherche par le contenu de catégories sémantiques d'objets vidéo.A partir des séquences vidéo, nous détectons et extrayons les régions contenant le même objet (visage d'une personne, un modèle de voiture, etc.) au cours d'un plan-séquence. A partir de ce volume, appelé Track, nous extrayons un ensemble de caractéristiques visuelles spatio-temporellement cohérentes qui forme ainsi un Tube Spatio-Temporel représentant l'objet.Pour évaluer la similarité entre Tubes Spatio-Temporels, nous concevons des fonctions noyaux dédiées. À partir de ces noyaux, nous proposons des stratégies d'apprentissage supervisé et interactif, intégrées dans un cadre Machine à Vecteurs de Supports.Notre approche est évaluée sur des bases de données de films réels. Elle surpasse les méthodes de l'état de l'art pour la reconnaissance d'acteurs multi-classes. Notre méthode est également testée pour la recherche interactive d'un acteur dans une base de vidéo et sur une base de données de voitures, illustrant ainsi la généricité de la méthode et ses possibles extensions à tout type d'objets vidéo
In this thesis, we propose a new video object retrieval and recognition system based on visual content.From video sequences, we detect, then extract video objects such as face and car, and define the continuous content made of regions containing this object in successive frames. From this volume, called Track, we extract spatio-temporally consistent visual features to define the video object representation: Spatio-Temporal Tube.To evaluate the similarity between complex tube objects, we design a Spatio-Temporal Tube Kernel (STTK) function. Based on this kernel similarity we present both supervised and active learning strategies embedded in Support Vector Machine framework. Additionally, we propose a multi-class classification framework dealing with highly unbalanced datasets.Our approach is successfully evaluated on real movie databases. Our machine learning approach outperforms the state of the art methods for multi-class actor recognition. Our method is also evaluated for actor retrieval task and on a car database showing hence promising results for car identification task and the potential of extension to any category of video objects

44

Berrani, Sid-Ahmed. "Recherche approximative de plus proches voisins avec contrôle probabiliste de la précision ; application à la recherche d'images par le contenu." Phd thesis, Université Rennes 1, 2004. http://tel.archives-ouvertes.fr/tel-00532854.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Cette thèse s'intéresse aux systèmes de recherche d'images par le contenu, où le but est de rechercher les images les plus similaires à une image requête fournie en exemple. Pour cela, il est d'abord nécessaire de décrire les images stockées dans la base. L'objectif est de traduire la similarité visuelle entre images en une simple notion de proximité spatiale entre descripteurs. Ainsi, pour retrouver les images similaires à l'image requête, il suffit de retrouver les descripteurs les plus proches du descripteur de l'image requête. Ce mode de recherche, appelé recherche de plus proches voisins, est cependant extrêmement coûteux même lorsque les techniques s'indexation multidimensionnelles sont utilisées. Les performances de celles-ci se dégradent exponentiellement lorsque la dimension des descripteurs augmente (phénomène de la malédiction de la dimension). Il s'avère toutefois que l'on peut fortement réduire le coût de ces recherches en effectuant des recherches approximatives. Le principe est alors de négocier une réduction du temps de réponse contre l'introduction d'imprécisions durant la recherche. Ce travail reprend ce principe et propose une nouvelle méthode de recherche approximative de plus proches voisins qui permet un contrôle fin et intuitif de la précision de la recherche. Ce contrôle s'exprime au travers d'un seul paramètre qui indique la probabilité maximale de ne pas trouver un des plus proches voisins recherchés. Dans le but d'évaluer rigoureusement ses performances dans le cadre d'un système réel, la méthode proposée a été ensuite intégrée dans un système de recherche d'images pour la détection de copies. Les expérimentations effectuées montrent que la méthode proposée est efficace, fiable et son imprécision n'a qu'un impact mineur sur la qualité des résultats finaux.

45

Krapac, Josip. "Représentations d'images pour la recherche et la classification d'images." Phd thesis, Université de Caen, 2011. http://tel.archives-ouvertes.fr/tel-00650998.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Cette thèse se concerne avec de tâches de la recherche et la classification d'images. Ces tâches sont résolues par l'apprentissage des modèles statistiques donnée une représentation du contenu visuel de l'image et une mesure de ressemblance entre les images. Ici nous visons à améliorer les performances du tâches en étendant le sac-de-mots représentation de l'image, tout en utilisant modèles statistiques et des mesures de similarité entre les images déjà existants. Nous adaptons la représentation d'image en fonction d'une tâche donnée. Nous avons d'abord explorer la tâche de reclassement d'images, en contexte de la recherche d'images, dont le but est de trier les images récupérées par une requête textuelle afin que les images pertinentes pour ce requête sont classés au-dessus les autres images. Inspiré par le méthodes de reclassement de documents textuelles nous avons développé une représentation qui dépend du contenu visuel de l'image, mais également sur la requête textuelle utilisée pour récupérer l'image. Ensuite, nous adaptons la représentation pour la tâche de classification d'images, qui vise à attribuer une ou plusieurs étiquettes d'une image liée à la contenu visuel de l'image. Nous avons adaptée de la représentation en apprenant un vocabulaire visuel, spécifiquement pour la tâche de classification. Nous avons également introduit une nouvelle représentation qui encode les informations sur la disposition spatiale des parties d'image, de manière beaucoup plus compacte que les représentations actuellement utilisés pour codage de l'agencement spatial. Toutes les représentations développées sont compacts, rapides à construire et obtient bons résultats en utilisent des modèles linéaires. Nous montrons des améliorations sur plusieurs bases des images complexes en comparaison avec des méthodes de l'état de l'art. Pour les tâches de recherche et classification d'images nous avons montré que l'adaptation de la représentation à la tâche améliore les performances.

46

Vieux, Rémi. "Extraction de Descripteurs Pertinents et Classiﬁcation pour le Problème de Recherche des Images par le Contenu." Thesis, Bordeaux 1, 2011. http://www.theses.fr/2011BOR14244/document.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Dans le cadre du projet Européen X-Media, de nombreuses contributions ont été apportées aux problèmes de classification d'image et de recherche d'images par le contenu dans des contextes industriels hétérogènes. Ainsi, après avoir établi un état de l'art des descripteurs d'image les plus courant, nous nous sommes dans un premier temps intéressé a des méthodes globales, c'est à dire basée sur la description totale de l'image par des descripteurs. Puis, nous nous sommes attachés a une analyse plus fine du contenu des images afin d'en extraire des informations locales, sur la présence et la localisation d'objets d'intérêt. Enfin, nous avons proposé une méthode hybride de recherche d'image basée sur le contenu qui s'appuie sur la description locale des régions de l'image afin d'en tirer une signature pouvant être utilisée pour des requêtes globales et locales
The explosive development of affordable, high quality image acquisition deviceshas made available a tremendous amount of digital content. Large industrial companies arein need of efficient methods to exploit this content and transform it into valuable knowledge.This PhD has been accomplished in the context of the X-MEDIA project, a large Europeanproject with two major industrial partners, FIAT for the automotive industry andRolls-Royce plc. for the aircraft industry. The project has been the trigger for research linkedwith strong industrial requirements. Although those user requirements can be very specific,they covered more generic research topics. Hence, we bring several contributions in thegeneral context of Content-Based Image Retrieval (CBIR), Indexing and Classification.In the first part of the manuscript we propose contributions based on the extraction ofglobal image descriptors. We rely on well known descriptors from the literature to proposemodels for the indexing of image databases, and the approximation of a user defined categorisation.Additionally, we propose a new descriptor for a CBIR system which has toprocess a very specific image modality, for which traditional descriptors are irrelevant. Inthe second part of the manuscript, we focus on the task of image classification. Industrialrequirements on this topic go beyond the task of global image classification. We developedtwo methods to localize and classify the local content of images, i.e. image regions, usingsupervised machine learning algorithms (Support Vector Machines). In the last part of themanuscript, we propose a model for Content-Based Image Retrieval based on the constructionof a visual dictionary of image regions. We extensively experiment the model in orderto identify the most influential parameters in the retrieval efficiency

47

Bouguila, Nizar. "Les mixtures de Dirichlet et leurs apports pour la classification et la recherche d'images par le contenu." Mémoire, [S.l. : s.n.], 2002. http://savoirs.usherbrooke.ca/handle/11143/4565.

Full text

APA, Harvard, Vancouver, ISO, and other styles

48

Da, Rugna Jérôme. "De l'usage des méthodes bas niveau pour la recherche d'image par le contenu." Phd thesis, Université Jean Monnet - Saint-Etienne, 2004. http://tel.archives-ouvertes.fr/tel-00070811.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

La thématique de ces travaux de thèse est la recherche d'images par le contenu et plus précisément
l'apport des méthodes bas niveau.
Après avoir discuté des différentes approches existantes, nous rappelons le fossé sémantique
entre les attentes de l'utilisateur et ce que proposent réellement les systèmes de recherche. La
plupart de ceux-ci reposent sur une étape préalable de segmentation dont la validité et la robustesse
se doivent d'être étudiées. Nous proposons alors un protocole d'évaluation objective et un
exemple concret de mise en oeuvre. L'originalité consiste à ne pas comparer une segmentation à
une référence théorique mais à juger objectivement sa stabilité.
La troisième partie de ce document introduit trois contributions ponctuelles susceptibles
d'améliorer la chaîne de recherche. Dans un premier temps, un détecteur de flou permet d'extraire
une méta-information portée par l'image, les zones nettes a priori de focalisation. Ensuite
nous exposons un descripteur basé sur l'extraction de régions émergentes sur le seul critère couleur.
Cette extraction, conjuguée avec des distances adaptées, peut permettre par exemple un
pré-filtrage couleur en amont de la phase de recherche de similarité proprement dite. Finalement,
nous introduisons brièvement une algèbre d'histogrammes pour exploiter au mieux l'information
contenue dans ce type de descripteurs, via un langage de requêtes spécifique.

49

Letessier, Pierre. "Découverte et exploitation d'objets visuels fréquents dans des collections multimédia." Electronic Thesis or Diss., Paris, ENST, 2013. http://www.theses.fr/2013ENST0014.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

L’objectif principal de cette thèse est la découverte d’objets visuels fréquents dans de grandes collections multimédias (images ou vidéos). Comme dans de nombreux domaines (ﬁnance, génétique, . . .), il s’agit d’extraire une connaissance de manière automatique ou semi-automatique en utilisant la fréquence d’apparition d’un objet au sein d’un corpus comme critère de pertinence. Une première contribution de la thèse est de fournir un formalisme aux problèmes de découverte et de fouille d’instances d’objets visuels fréquents. La deuxième contribution de la thèse est une méthode générique de résolution de ces deux types de problème reposant d’une part sur un processus itératif d’échantillonnage d’objets candidats et d’autre part sur une méthode efﬁcace d’appariement d’objets rigides à large échelle. La troisième contribution de la thèse s’attache à construire une fonction de vraisemblance s’approchant au mieux de la distribution parfaite, tout en restant scalable et efﬁcace. Les expérimentations montrent que contrairement aux méthodes de l’état de l’artnotre approche permet de découvrir efﬁcacement des objets de très petite taille dans des millions d’images. Pour ﬁnir, plusieurs scénarios d’exploitation des graphes visuels produits par notre méthode sont proposées et expérimentés. Ceci inclut la détection d’évènements médiatiques transmédias et la suggestion de requêtes visuelles
The main goal of this thesis is to discover frequent visual objects in large multimedia collections. As in many areas (ﬁnance, genetics, . . .), it consists in extracting a knowledge, using the occurence frequency of an object in a collection as a relevance criterion. A ﬁrst contribution is to provide a formalism to the problems of mining and discovery of frequent visual objects. The second contribution is a generic method to solve these two problems, based on an iterative sampling process, and on an efﬁcient and scalable rigid objects matching. The third contribution of this work focuses on building a likelihood function close to the perfect distribution. Experiments show that contrary to state-of-the-art methods, our approach allows to discover efﬁciently very small objects in several millions images. Finally, several applications are presented, including trademark logos discovery, transmedia events detection or visual-based query suggestion

50

Dorval, Thierry. "Approches saillantes et psycho-visuelles pour l'indexation d'images couleurs." Paris 6, 2004. http://www.theses.fr/2004PA066096.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Dissertations / Theses on the topic 'Recherche d'images par contenu visuel'

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles