Letteratura scientifica selezionata sul tema "Codage vidéo sémantique"

Cita una fonte nei formati APA, MLA, Chicago, Harvard e in molti altri stili

Scegli il tipo di fonte:

Consulta la lista di attuali articoli, libri, tesi, atti di convegni e altre fonti scientifiche attinenti al tema "Codage vidéo sémantique".

Accanto a ogni fonte nell'elenco di riferimenti c'è un pulsante "Aggiungi alla bibliografia". Premilo e genereremo automaticamente la citazione bibliografica dell'opera scelta nello stile citazionale di cui hai bisogno: APA, MLA, Harvard, Chicago, Vancouver ecc.

Puoi anche scaricare il testo completo della pubblicazione scientifica nel formato .pdf e leggere online l'abstract (il sommario) dell'opera se è presente nei metadati.

Indice

  1. Tesi

Tesi sul tema "Codage vidéo sémantique":

1

Hammiche, Samira. "Approximation de requêtes dans les bases de données multimédia". Lyon 1, 2007. http://www.theses.fr/2007LYO10080.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
2

Samrouth, Khouloud. "Représentation et compression à haut niveau sémantique d’images 3D". Thesis, Rennes, INSA, 2014. http://www.theses.fr/2014ISAR0025/document.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
La diffusion de données multimédia, et particulièrement les images, continuent à croitre de manière très significative. La recherche de schémas de codage efficaces des images reste donc un domaine de recherche très dynamique. Aujourd'hui, une des technologies innovantes les plus marquantes dans ce secteur est sans doute le passage à un affichage 3D. La technologie 3D est largement utilisée dans les domaines de divertissement, d'imagerie médicale, de l'éducation et même plus récemment dans les enquêtes criminelles. Il existe différentes manières de représenter l'information 3D. L'une des plus répandues consiste à associer à une image classique dite de texture, une image de profondeur de champs. Cette représentation conjointe permet ainsi une bonne reconstruction 3D dès lors que les deux images sont bien corrélées, et plus particulièrement sur les zones de contours de l'image de profondeur. En comparaison avec des images 2D classiques, la connaissance de la profondeur de champs pour les images 3D apporte donc une information sémantique importante quant à la composition de la scène. Dans cette thèse, nous proposons un schéma de codage scalable d'images 3D de type 2D + profondeur avec des fonctionnalités avancées, qui préserve toute la sémantique présente dans les images, tout en garantissant une efficacité de codage significative. La notion de préservation de la sémantique peut être traduite en termes de fonctionnalités telles que l'extraction automatique de zones d'intérêt, la capacité de coder plus finement des zones d'intérêt par rapport au fond, la recomposition de la scène et l'indexation. Ainsi, dans un premier temps, nous introduisons un schéma de codage scalable et joint texture/profondeur. La texture est codée conjointement avec la profondeur à basse résolution, et une méthode de compression de la profondeur adaptée aux caractéristiques des cartes de profondeur est proposée. Ensuite, nous présentons un schéma global de représentation fine et de codage basé contenu. Nous proposons ainsi schéma global de représentation et de codage de "Profondeur d'Intérêt", appelé "Autofocus 3D". Il consiste à extraire finement des objets en respectant les contours dans la carte de profondeur, et de se focaliser automatiquement sur une zone de profondeur pour une meilleure qualité de synthèse. Enfin, nous proposons un algorithme de segmentation en régions d'images 3D, fournissant une forte consistance entre la couleur, la profondeur et les régions de la scène. Basé sur une exploitation conjointe de l'information couleurs, et celle de profondeur, cet algorithme permet la segmentation de la scène avec un degré de granularité fonction de l'application visée. Basé sur cette représentation en régions, il est possible d'appliquer simplement le même principe d'Autofocus 3D précédent, pour une extraction et un codage de la profondeur d'Intérêt (DoI). L'élément le plus remarquable de ces deux approches est d'assurer une pleine cohérence spatiale entre texture, profondeur, et régions, se traduisant par une minimisation des problèmes de distorsions au niveau des contours et ainsi par une meilleure qualité dans les vues synthétisées
Dissemination of multimedia data, in particular the images, continues to grow very significantly. Therefore, developing effective image coding schemes remains a very active research area. Today, one of the most innovative technologies in this area is the 3D technology. This 3D technology is widely used in many domains such as entertainment, medical imaging, education and very recently in criminal investigations. There are different ways of representing 3D information. One of the most common representations, is to associate a depth image to a classic colour image called texture. This joint representation allows a good 3D reconstruction, as the two images are well correlated, especially along the contours of the depth image. Therefore, in comparison with conventional 2D images, knowledge of the depth of field for 3D images provides an important semantic information about the composition of the scene. In this thesis, we propose a scalable 3D image coding scheme for 2D + depth representation with advanced functionalities, which preserves all the semantics present in the images, while maintaining a significant coding efficiency. The concept of preserving the semantics can be translated in terms of features such as an automatic extraction of regions of interest, the ability to encode the regions of interest with higher quality than the background, the post-production of the scene and the indexing. Thus, firstly we introduce a joint and scalable 2D plus depth coding scheme. First, texture is coded jointly with depth at low resolution, and a method of depth data compression well suited to the characteristics of the depth maps is proposed. This method exploits the strong correlation between the depth map and the texture to better encode the depth map. Then, a high resolution coding scheme is proposed in order to refine the texture quality. Next, we present a global fine representation and contentbased coding scheme. Therefore, we propose a representation and coding scheme based on "Depth of Interest", called "3D Autofocus". It consists in a fine extraction of objects, while preserving the contours in the depth map, and it allows to automatically focus on a particular depth zone, for a high rendering quality. Finally, we propose 3D image segmentation, providing a high consistency between colour, depth and regions of the scene. Based on a joint exploitation of the colour and depth information, this algorithm allows the segmentation of the scene with a level of granularity depending on the intended application. Based on such representation of the scene, it is possible to simply apply the same previous 3D Autofocus, for Depth of Interest extraction and coding. It is remarkable that both approaches ensure a high spatial coherence between texture, depth, and regions, allowing to minimize the distortions along object of interest's contours and then a higher quality in the synthesized views
3

Mitrica, Iulia. "Video compression of airplane cockpit screens content". Electronic Thesis or Diss., Institut polytechnique de Paris, 2021. http://www.theses.fr/2021IPPAT042.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Cette thèse aborde le problème de l'encodage de la vidéo des cockpits d'avion. Le cockpit des avions de ligne modernes consiste en un ou plusieurs écrans affichant l'état des instruments de l'avion (par exemple, la position de l'avion telle que rapportée par le GPS, le niveau de carburant tel que lu par les capteurs dans les réservoirs, etc.,) souvent superposés au naturel images (par exemple, cartes de navigation, caméras extérieures, etc.). Les capteurs d'avion sont généralement inaccessibles pour des raisons de sécurité, de sorte que l'enregistrement du cockpit est souvent le seul moyen de consigner les données vitales de l'avion en cas, par exemple, d'un accident. Les contraintes sur la mémoire d'enregistrement disponible à bord nécessitent que la vidéo du cockpit soit codée à des débits faibles à très faibles, alors que pour des raisons de sécurité, les informations textuelles doivent rester intelligibles après le décodage. De plus, les contraintes sur l'enveloppe de puissance des dispositifs avioniques limitent la complexité du sous-système d'enregistrement du poste de pilotage. Au fil des ans, un certain nombre de schémas de codage d'images ou de vidéos avec des contenus mixtes générés par ordinateur et naturels ont été proposés. Le texte et d'autres graphiques générés par ordinateur produisent des composants haute fréquence dans le domaine transformé. Par conséquent, la perte due à la compression peut nuire à la lisibilité de la vidéo et donc à son utilité. Par exemple, l'extension récemment normalisée SCC (Screen Content Coding) de la norme H.265/HEVC comprend des outils conçus explicitement pour la compression du contenu de l'écran. Nos expériences montrent cependant que les artefacts persistent aux bas débits ciblés par notre application, incitant à des schémas où la vidéo n'est pas encodée dans le domaine des pixels. Cette thèse propose des méthodes de codage d'écran de faible complexité où le texte et les primitives graphiques sont codés en fonction de leur sémantique plutôt que sous forme de blocs de pixels. Du côté du codeur, les caractères sont détectés et lus à l'aide d'un réseau neuronal convolutif. Les caractères détectés sont ensuite supprimés de l'écran via le pixel inpainting, ce qui donne une vidéo résiduelle plus fluide avec moins de hautes fréquences. La vidéo résiduelle est codée avec un codec vidéo standard et est transmise du côté récepteur avec une sémantique textuelle et graphique en tant qu'informations secondaires. Du côté du décodeur, le texte et les graphiques sont synthétisés à l'aide de la sémantique décodée et superposés à la vidéo résiduelle, récupérant finalement l'image d'origine. Nos expériences montrent qu'un encodeur AVC/H.264 équipé de notre méthode a de meilleures performances de distorsion-débit que H.265/HEVC et se rapproche de celle de son extension SCC. Si les contraintes de complexité permettent la prédiction inter-trame, nous exploitons également le fait que les caractères co-localisés dans les trames voisines sont fortement corrélés. À savoir, les symboles mal classés sont récupérés à l'aide d'une méthode proposée basée sur un modèle de faible complexité des probabilités de transition pour les caractères et les graphiques. Concernant la reconnaissance de caractères, le taux d'erreur chute jusqu'à 18 fois dans les cas les plus faciles et au moins 1,5 fois dans les séquences les plus difficiles malgré des occlusions complexes.En exploitant la redondance temporelle, notre schéma s'améliore encore en termes de distorsion de débit et permet un décodage de caractères quasi sans erreur. Des expériences avec de vraies séquences vidéo de cockpit montrent des gains de distorsion de débit importants pour la méthode proposée par rapport aux normes de compression vidéo
This thesis addresses the problem of encoding the video of airplane cockpits.The cockpit of modern airliners consists in one or more screens displaying the status of the plane instruments (e.g., the plane location as reported by the GPS, the fuel level as read by the sensors in the tanks, etc.,) often superimposed over natural images (e.g., navigation maps, outdoor cameras, etc.).Plane sensors are usually inaccessible due to security reasons, so recording the cockpit is often the only way to log vital plane data in the event of, e.g., an accident.Constraints on the recording storage available on-board require the cockpit video to be coded at low to very low bitrates, whereas safety reasons require the textual information to remain intelligible after decoding. In addition, constraints on the power envelope of avionic devices limit the cockpit recording subsystem complexity.Over the years, a number of schemes for coding images or videos with mixed computer-generated and natural contents have been proposed. Text and other computer generated graphics yield high-frequency components in the transformed domain. Therefore, the loss due to compression may hinder the readability of the video and thus its usefulness. For example, the recently standardized Screen Content Coding (SCC) extension of the H.265/HEVC standard includes tools designed explicitly for screen contents compression. Our experiments show however that artifacts persist at the low bitrates targeted by our application, prompting for schemes where the video is not encoded in the pixel domain.This thesis proposes methods for low complexity screen coding where text and graphical primitives are encoded in terms of their semantics rather than as blocks of pixels.At the encoder side, characters are detected and read using a convolutional neural network.Detected characters are then removed from screen via pixel inpainting, yielding a smoother residual video with fewer high frequencies. The residual video is encoded with a standard video codec and is transmitted to the receiver side together with text and graphics semantics as side information.At the decoder side, text and graphics are synthesized using the decoded semantics and superimposed over the residual video, eventually recovering the original frame. Our experiments show that an AVC/H.264 encoder retrofitted with our method has better rate-distortion performance than H.265/HEVC and approaches that of its SCC extension.If the complexity constraints allow inter-frame prediction, we also exploit the fact that co-located characters in neighbor frames are strongly correlated.Namely, the misclassified symbols are recovered using a proposed method based on low-complexity model of transitional probabilities for characters and graphics. Concerning character recognition, the error rate drops up to 18 times in the easiest cases and at least 1.5 times in the most difficult sequences despite complex occlusions.By exploiting temporal redundancy, our scheme further improves in rate-distortion terms and enables quasi-errorless character decoding. Experiments with real cockpit video footage show large rate-distortion gains for the proposed method with respect to video compression standards
4

Kimiaei, Asadi Mariam. "Adaptation de contenu multimedia avec MPEG 21 : conversion de ressources et adaptation sémantique de scènes". Paris, ENST, 2005. http://www.theses.fr/2005ENST0040.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
L'objectif de cette thèse de doctorat est de proposer des techniques et des méthodologies nouvelles, simples et efficaces pour l'adaptation de contenu multimédia à diverses contraintes de contexte d’utilisation. Le travail est basé sur la norme MPEG-21 qui vise à définir les différents composants d'un système de distribution de contenus multimédia. Le travail de cette thèse est divisé en deux parties principales : l'adaptation de médias uniques, et l'adaptation sémantique de documents multimédia composé. Dans l'adaptation de médias uniques, le média est adapté aux contraintes du contexte de consommation, telles que les capacités du terminal, les préférences de l'utilisateur, les capacités du réseau, les recommandations de l'auteur, etc. . . Dans cette forme d'adaptation, le média est considéré hors de tout contexte de présentation multimédia structurée. Nous avons défini des outils et descripteurs, étendant les outils et descripteurs MPEG-21 DIA, pour la description des suggestions d’adaptation et la description des paramètres correspondants. Dans l'adaptation sémantique de documents multimédia structurés, adaptation est considérée selon les relations temporelles, spatiales et sémantiques entre les objets média de la scène. En adaptant une présentation multimédia afin de préserver l'uniformité et la logique de la scène adaptée, le processus d'adaptation doit avoir accès à l'information sémantique de la présentation. Nous avons défini un langage d’extension de la description de scène pour l'expression de cette information sémantique. Pour la réalisation d’un tel système d’adaptation, nous avons utilisé SMIL 2. 0 pour décrire nos scènes multimédia
The objective of this Ph. D. Thesis is to propose new, simple and efficient techniques and methodologies for support of multimedia content adaptation to constrained contexts. The work is based on parts of the on-going MPEG-21 standard that aims at defining different components of a multimedia distribution framework. The thesis is divided into two main parts: single media adaptation and semantic adaptation of multimedia composed documents. In single media adaptation, the media is adapted to the context constraints, such as terminal capabilities, user preferences, network capacities, author recommendations and etc. In this type of adaptation, the media is considered solely, i. E. As mono media. We have defined description tools extending the MPEG-21 DIA schema, for description of hints and suggestions on different media adaptations and their corresponding parameters. In semantic adaptation of structured multimedia documents, we addressed the question of adaptation based on temporal, spatial and semantic relationships between the media objects. When adapting a multimedia presentation, in order to preserve the consistency and meaningfulness of the adapted scene, the adaptation process needs to have access to the semantic information of the presentation. We have defined a language as a set of descriptors, for the expression of semantic information of composed multimedia content. In our implementations, we used SMIL 2. 0 for describing multimedia scenes
5

Joveski, Bojan. "Dispositif de rendu distant multimédia et sémantique pour terminaux légers collaboratifs". Phd thesis, Ecole Nationale Supérieure des Mines de Paris, 2012. http://pastel.archives-ouvertes.fr/pastel-00873162.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Développer un système de rendu distant pour terminaux légers et mobiles traitant d'objets multimédias et de leur sémantique consiste à (1) offrir une véritable expérience multimédia collaborative au niveau du terminal, (2) assurer la compatibilité avec les contraintes liées au réseau (bande passante, erreurs et latence variables en temps) et au terminal (ressources de calcul et de mémoire réduites) et (3) s'affranchir des types de terminaux et des spécificités des communautés.Cette thèse traite de ces enjeux et se positionne en rupture avec l'état de l'art en développant une architecture support fondée sur la gestion sémantique du contenu multimédia. Le principe consiste à convertir en temps réel le contenu graphique généré par l'application en un graphe de scène multimédia et à le gérer en fonction de la sémantique de ses composantes.L'optimisation de la bande passante est assurée par la compression adaptative du graphe de scène et par la compression sans perte des messages de collaboration. Les deux méthodes développées sont caractérisées respectivement par la création d'un unique graphe de scène intrinsèquement adaptable au réseau/terminal et par la mise à jour dynamique du dictionnaire de codage en fonction des messages générés par les utilisateurs. Elles sont brevetées.Les fonctionnalités collaboratives interviennent directement au niveau du contenu grâce à l'enrichissement du graphe de scène par un nouveau type de nœud, dont la normalisation ISO est en cours.Le démonstrateur logiciel sous-jacent, dénommé MASC (Multimedia Adaptive Semantic Collaboration), permet de comparer objectivement cette nouvelle architecture aux solutions actuellement déployées par des acteurs majeurs du domaine (VNC RBF ou Microsoft RDP). Deux types d'application ont été considérés : l'édition du texte et la navigation sur Internet. Les évaluations quantitatives montrent: (1) un impact limité des artéfacts visuels de conversion (PSNR compris entre 30 et 42 dB et SSIM supérieur à 0,9999), (2) consommation de la bande passante downlink (resp. uplink) réduite d'un facteur de 2 à 60 (resp. de 3 à 10), (3) latence dans la transmission des événements générés par l'utilisateur réduite d'un facteur de 4 à 6, (4) consommation des ressources de calcul côté client réduite d'un facteur 1,5 par rapport à VNC RFB.

Vai alla bibliografia