Dissertations / Theses: '2D/3D object discovery'

1

Kara, Sandra. "Unsupervised object discovery in images and video data." Electronic Thesis or Diss., université Paris-Saclay, 2025. http://www.theses.fr/2025UPASG019.

Full text

Abstract:

Cette thèse explore les méthodes d'apprentissage auto-supervisé pour la localisation d'objets, communément appelées « Object Discovery ». La localisation d'objets dans les images et les vidéos est un élément essentiel des tâches de vision par ordinateur telles que la détection, la ré-identification, le suivi, etc. Les algorithmes supervisés actuels peuvent localiser (et classifier) les objets avec précision, mais ils sont coûteux en raison de la nécessité de données annotées. Le processus d'étiquetage est généralement répété pour chaque nouvelle donnée ou catégorie d'intérêt, limitant ainsi leur évolutivité. De plus, les approches sémantiquement spécialisées nécessitent une connaissance préalable des classes cibles, restreignant leur utilisation aux objets connus. La découverte d'objets vise à pallier ces limitations en étant plus générique. La première contribution de la thèse s'est concentrée sur la modalité image, en étudiant comment les caractéristiques des modèles transformers de vision auto-supervisés peuvent servir d'indices pour la découverte d'objets multiples. Afin de localiser les objets dans leur définition la plus large, nous avons étendu notre étude aux données vidéo, en exploitant les indices de mouvement et en ciblant la localisation d'objets capables de se déplacer. Nous avons introduit la modélisation de l'arrière-plan et la distillation de connaissances dans la découverte d'objets pour résoudre le problème de la sur-segmentation de l'arrière-plan dans les méthodes existantes, et pour réintégrer les objets statiques, améliorant ainsi de manière significative le rapport signal/bruit dans les prédictions. Reconnaissant les limites des données à modalité unique, nous avons incorporé des données 3D à travers un apprentissage par distillation de connaissances cross-modale. L'échange de connaissances entre les domaines 2D et 3D a permis d'améliorer l'alignement des régions d'objets entre les deux modalités, rendant possible l'utilisation de la cohérence multi-modale comme critère de confiance This thesis explores self-supervised learning methods for object localization, commonly known as Object Discovery. Object localization in images and videos is an essential component of computer vision tasks such as detection, re-identification, tracking etc. Current supervised algorithms can localize (and classify) objects accurately but are costly due to the need for annotated data. The process of labeling is typically repeated for each new data or category of interest, limiting their scalability. Additionally, the semantically specialized approaches require prior knowledge of the target classes, restricting their use to known objects. Object Discovery aims to address these limitations by being more generic. The first contribution of this thesis focused on the image modality, investigating how features from self-supervised vision transformers can serve as cues for multi-object discovery. To localize objects in their broadest definition, we extended our focus to video data, leveraging motion cues and targeting the localization of objects that can move. We introduced background modeling and knowledge distillation in object discovery to tackle the background over-segmentation issue in existing object discovery methods and to reintegrate static objects, significantly improving the signal-to-noise ratio in predictions. Recognizing the limitations of single-modality data, we incorporated 3D data through a cross-modal distillation framework. The knowledge exchange between 2D and 3D domains improved alignment on object regions between the two modalities, enabling the use of multi-modal consistency as a confidence criterion