Thèses : « Classification de scènes sonores »

1

Bisot, Victor. « Apprentissage de représentations pour l'analyse de scènes sonores ». Electronic Thesis or Diss., Paris, ENST, 2018. http://www.theses.fr/2018ENST0016.

Texte intégral

Résumé :

Ce travail de thèse s’intéresse au problème de l’analyse des sons environnementaux avec pour objectif d’extraire automatiquement de l’information sur le contexte dans lequel un son a été enregistré. Ce domaine de recherche a connu un succès grandissant ces dernières années entraînant une rapide évolution du nombre de travaux et des méthodes employées. Nos travaux explorent et contribuent à plusieurs grandes familles d’approches pour l’analyse de scènes et événements sonores allant de l’ingénierie de descripteurs jusqu’aux réseaux de neurones profonds. Notre travail se focalise sur les techniques d’apprentissage de représentations par factorisation en matrices positives (NMF), qui sont particulièrement adaptées à l’analyse d’environnements multi-sources tels que les scènes sonores. Nous commençons par montrer que les spectrogrammes contiennent suffisamment d’information pour discriminer les scènes sonores en proposant une combinaison de descripteurs d’images extraits à partir des images temps-fréquence. Nous quittons ensuite le monde de l’ingénierie de descripteurs pour aller vers un apprentissage automatique des représentations. Nous entamons cette partie du travail en nous intéressant aux approches non-supervisées, en particulier à l’apprentissage de descripteurs par différentes variantes de la NMF. Plusieurs des approches proposées confirment l’intérêt de l’apprentissage de caractéristiques par NMF en obtenant des performances supérieures aux meilleures approches par extraction de descripteurs. Nous proposons ensuite d’améliorer les représentations apprises en introduisant le modèle TNMF, une variante supervisée de la NMF. Les modèles et algorithmes TNMF proposés se basent sur un apprentissage conjoint du classifieur et du dictionnaire de sorte à minimiser un coût de classification. Dans une dernière partie, nous discutons des liens de compatibilité entre la NMF et certaines approches par réseaux de neurones profonds. Nous proposons et adaptons des architectures de réseaux de neurones à l’utilisation de la NMF. Les modèles introduits nous permettent d’atteindre des performances état de l’art sur des tâches de classification de scènes et de détection d’événements sonores. Enfin nous explorons la possibilité d’entraîner conjointement la NMF et les paramètres du réseau, regroupant ainsi les différentes étapes de nos systèmes en un seul problème d’optimisation
This thesis work focuses on the computational analysis of environmental sound scenes and events. The objective of such tasks is to automatically extract information about the context in which a sound has been recorded. The interest for this area of research has been rapidly increasing in the last few years leading to a constant growth in the number of works and proposed approaches. We explore and contribute to the main families of approaches to sound scene and event analysis, going from feature engineering to deep learning. Our work is centered at representation learning techniques based on nonnegative matrix factorization, which are particularly suited to analyse multi-source environments such as acoustic scenes. As a first approach, we propose a combination of image processing features with the goal of confirming that spectrograms contain enough information to discriminate sound scenes and events. From there, we leave the world of feature engineering to go towards automatically learning the features. The first step we take in that direction is to study the usefulness of matrix factorization for unsupervised feature learning techniques, especially by relying on variants of NMF. Several of the compared approaches allow us indeed to outperform feature engineering approaches to such tasks. Next, we propose to improve the learned representations by introducing the TNMF model, a supervised variant of NMF. The proposed TNMF models and algorithms are based on jointly learning nonnegative dictionaries and classifiers by minimising a target classification cost. The last part of our work highlights the links and the compatibility between NMF and certain deep neural network systems by proposing and adapting neural network architectures to the use of NMF as an input representation. The proposed models allow us to get state of the art performance on scene classification and overlapping event detection tasks. Finally we explore the possibility of jointly learning NMF and neural networks parameters, grouping the different stages of our systems in one optimisation problem

Styles APA, Harvard, Vancouver, ISO, etc.

2

Olvera, Zambrano Mauricio Michel. « Robust sound event detection ». Electronic Thesis or Diss., Université de Lorraine, 2022. http://www.theses.fr/2022LORR0324.

Texte intégral

Résumé :

De l'industrie aux applications d'intérêt général, l'analyse automatique des scènes et événements sonores permet d'interpréter le flux continu de sons quotidiens. Une des principales dégradations rencontrées lors du passage des conditions de laboratoire au monde réel est due au fait que les scènes sonores ne sont pas composées d'événements isolés mais de plusieurs événements simultanés. Des différences entre les conditions d'apprentissage et de test surviennent aussi souvent en raison de facteurs extrinsèques, tels que le choix du matériel d'enregistrement et des positions des microphones, et de facteurs intrinsèques aux événements sonores, tels que leur fréquence d'occurrence, leur durée et leur variabilité. Dans cette thèse, nous étudions des problèmes d'intérêt pratique pour les tâches d'analyse sonore afin d'atteindre la robustesse dans des scénarios réels.Premièrement, nous explorons la séparation des sons ambiants dans un scénario pratique dans lequel plusieurs événements sonores de courte durée avec des caractéristiques spectrales à variation rapide (c'est-à-dire des sons d'avant-plan) se produisent simultanément à des sons stationnaires d'arrière-plan. Nous introduisons la tâche de séparation du son d'avant-plan et d'arrière-plan et examinons si un réseau de neurones profond avec des informations auxiliaires sur les statistiques du son d'arrière-plan peut différencier les caractéristiques spectro-temporelles à variation rapide et lente. De plus, nous explorons l'usage de la normalisation de l'énergie par canal (PCEN) comme prétraitement et la capacité du modèle de séparation à généraliser à des classes sonores non vues à l'apprentissage. Les résultats sur les mélanges de sons isolés à partir des jeux de données DESED et Audioset démontrent la capacité de généralisation du système de séparation proposé, qui est principalement due à PCEN.Deuxièmement, nous étudions comment améliorer la robustesse des systèmes d'analyse sonore dans des conditions d'apprentissage et de test différentes. Nous explorons deux tâches distinctes~: la classification de scène sonore (ASC) avec des matériels d'enregistrement différents et l'apprentissage de systèmes de détection d'événements sonores (SED) avec des données synthétiques et réelles.Dans le contexte de l'ASC, sans présumer de la disponibilité d'enregistrements capturés simultanément par les matériels d'enregistrement d'apprentissage et de test, nous évaluons l'impact des stratégies de normalisation et d'appariement des moments et leur intégration avec l'adaptation de domaine antagoniste non supervisée. Nos résultats montrent les avantages et les limites de ces stratégies d'adaptation appliquées à différentes étapes du pipeline de classification. La meilleure stratégie atteint les performances du domaine source dans le domaine cible.Dans le cadre de la SED, nous proposons un prétraitement basé sur PCEN avec des paramètres appris. Ensuite, nous étudions l'apprentissage conjoint du système de SED et de branches de classification auxiliaires qui catégorisent les sons en avant-plan ou arrière-plan selon leurs propriétés spectrales. Nous évaluons également l'impact de l'alignement des distributions des données synthétiques et réelles au niveau de la trame ou du segment par transport optimal. Enfin, nous intégrons une stratégie d'apprentissage actif dans la procédure d'adaptation. Les résultats sur le jeu de données DESED indiquent que ces méthodes sont bénéfiques pour la tâche de SED et que leur combinaison améliore encore les performances sur les scènes sonores réelles
From industry to general interest applications, computational analysis of sound scenes and events allows us to interpret the continuous flow of everyday sounds. One of the main degradations encountered when moving from lab conditions to the real world is due to the fact that sound scenes are not composed of isolated events but of multiple simultaneous events. Differences between training and test conditions also often arise due to extrinsic factors such as the choice of recording hardware and microphone positions, as well as intrinsic factors of sound events, such as their frequency of occurrence, duration and variability. In this thesis, we investigate problems of practical interest for audio analysis tasks to achieve robustness in real scenarios.Firstly, we explore the separation of ambient sounds in a practical scenario in which multiple short duration sound events with fast varying spectral characteristics (i.e., foreground sounds) occur simultaneously with background stationary sounds. We introduce the foreground-background ambient sound separation task and investigate whether a deep neural network with auxiliary information about the statistics of the background sound can differentiate between rapidly- and slowly-varying spectro-temporal characteristics. Moreover, we explore the use of per-channel energy normalization (PCEN) as a suitable pre-processing and the ability of the separation model to generalize to unseen sound classes. Results on mixtures of isolated sounds from the DESED and Audioset datasets demonstrate the generalization capability of the proposed separation system, which is mainly due to PCEN.Secondly, we investigate how to improve the robustness of audio analysis systems under mismatched training and test conditions. We explore two distinct tasks: acoustic scene classification (ASC) with mismatched recording devices and training of sound event detection (SED) systems with synthetic and real data.In the context of ASC, without assuming the availability of recordings captured simultaneously by mismatched training and test recording devices, we assess the impact of moment normalization and matching strategies and their integration with unsupervised adversarial domain adaptation. Our results show the benefits and limitations of these adaptation strategies applied at different stages of the classification pipeline. The best strategy matches source domain performance in the target domain.In the context of SED, we propose a PCEN based acoustic front-end with learned parameters. Then, we study the joint training of SED with auxiliary classification branches that categorize sounds as foreground or background according to their spectral properties. We also assess the impact of aligning the distributions of synthetic and real data at the frame or segment level based on optimal transport. Finally, we integrate an active learning strategy in the adaptation procedure. Results on the DESED dataset indicate that these methods are beneficial for the SED task and that their combination further improves performance on real sound scenes

Styles APA, Harvard, Vancouver, ISO, etc.

3

Gontier, Félix. « Analyse et synthèse de scènes sonores urbaines par approches d'apprentissage profond ». Thesis, Ecole centrale de Nantes, 2020. http://www.theses.fr/2020ECDN0042.

Texte intégral

Résumé :

L'avènement de l'Internet des Objets (IoT) a permis le développement de réseaux de capteurs acoustiques à grande échelle, dans le but d'évaluer en continu les environnements sonores urbains. Dans l'approche de paysages sonores, les attributs perceptifs de qualité sonore sont liés à l'activité de sources, quantités d'importance pour mieux estimer la perception humaine des environnements sonores. Utilisées avec succès dans l'analyse de scènes sonores, les approches d'apprentissage profond sont particulièrement adaptées pour prédire ces quantités. Cependant, les annotations nécessaires au processus d'entraînement de modèles profonds ne peuvent pas être directement obtenues, en partie à cause des limitations dans l’information enregistrée par les capteurs nécessaires pour assurer le respect de la vie privée. Pour répondre à ce problème, une méthode pour l'annotation automatique de l'activité des sources d'intérêt sur des scènes sonores simulées est proposée. Sur des données simulées, les modèles d'apprentissage profond développés atteignent des performances « état de l'art » pour l'estimation d'attributs perceptifs liés aux sources, ainsi que de l'agrément sonore. Des techniques d'apprentissage par transfert semisupervisé sont alors étudiées pour favoriser l'adaptabilité des modèles appris, en exploitant l'information contenue dans les grandes quantités de données enregistrées par les capteurs. Les évaluations sur des enregistrements réalisés in situ et annotés montrent qu'apprendre des représentations latentes des signaux audio compense en partie les défauts de validité écologique des scènes sonores simulées. Dans une seconde partie, l'utilisation de méthodes d'apprentissage profond est considérée pour la resynthèse de signaux temporels à partir de mesures capteur, sous contrainte de respect de la vie privée. Deux approches convolutionnelles sont développées et évaluées par rapport à des méthodes état de l'art pour la synthèse de parole
The advent of the Internet of Things (IoT) has enabled the development of largescale acoustic sensor networks to continuously monitor sound environments in urban areas. In the soundscape approach, perceptual quality attributes are associated with the activity of sound sources, quantities of importance to better account for the human perception of its acoustic environment. With recent success in acoustic scene analysis, deep learning approaches are uniquely suited to predict these quantities. Though, annotations necessary to the training process of supervised deep learning models are not easily obtainable, partly due to the fact that the information content of sensor measurements is limited by privacy constraints. To address this issue, a method is proposed for the automatic annotation of perceived source activity in large datasets of simulated acoustic scenes. On simulated data, trained deep learning models achieve state-of-the-art performances in the estimation of sourcespecific perceptual attributes and sound pleasantness. Semi-supervised transfer learning techniques are further studied to improve the adaptability of trained models by exploiting knowledge from the large amounts of unlabelled sensor data. Evaluations on annotated in situ recordings show that learning latent audio representations of sensor measurements compensates for the limited ecological validity of simulated sound scenes. In a second part, the use of deep learning methods for the synthesis of time domain signals from privacy-aware sensor measurements is investigated. Two spectral convolutional approaches are developed and evaluated against state-of-the-art methods designed for speech synthesis

Styles APA, Harvard, Vancouver, ISO, etc.

4

Lafay, Grégoire. « Simulation de scènes sonores environnementales : Application à l’analyse sensorielle et l’analyse automatique ». Thesis, Ecole centrale de Nantes, 2016. http://www.theses.fr/2016ECDN0007/document.

Texte intégral

Résumé :

La présente thèse traite de l'analyse de scènes extraites d'environnements sonores, résultat auditif du mélange de sources émettrices distinctes et concomitantes. Ouvrant le champ des sources et des recherches possibles au-delà des domaines plus spécifiques que sont la parole ou la musique, l'environnement sonore est un objet complexe. Son analyse, le processus par lequel le sujet lui donne sens, porte à la fois sur les données perçues et sur le contexte de perception de ces données.Tant dans le domaine de la perception que de l'apprentissage machine, toute expérience suppose un contrôle fin de l'expérimentateur sur les stimuli proposés. Néanmoins, la nature de l'environnement sonore nécessite de se placer dans un cadre écologique, c'est à dire de recourir à des données réelles, enregistrées, plutôt qu'à des stimuli de synthèse. Conscient de cette problématique, nous proposons un modèle permettant de simuler, à partir d'enregistrements de sons isolés, des scènes sonores dont nous maîtrisons les propriétés structurelles -- intensité, densité et diversité des sources. Appuyé sur les connaissances disponibles sur le système auditif humain, le modèle envisage la scène sonore comme un objet composite, une somme de sons sources.Nous investissons à l'aide de cet outil deux champs d'application. Le premier concerne la perception, et la notion d'agrément perçu dans des environnements urbains. L'usage de données simulées nous permet d'apprécier finement l'impact de chaque source sonore sur celui-ci. Le deuxième concerne la détection automatique d'événements sonores et propose une méthodologie d'évaluation des algorithmes mettant à l'épreuve leurs capacités de généralisation
This thesis deals with environmental scene analysis, the auditory result of mixing separate but concurrent emitting sources. The sound environment is a complex object, which opens the field of possible research beyond the specific areas that are speech or music. For a person to make sense of its sonic environment, the involved process relies on both the perceived data and its context. For each experiment, one must be, as much as possible,in control of the evaluated stimuli, whether the field of investigation is perception or machine learning. Nevertheless, the sound environment needs to be studied in an ecological framework, using real recordings of sounds as stimuli rather than synthetic pure tones. We therefore propose a model of sound scenes allowing us to simulate complex sound environments from isolated sound recordings. The high level structural properties of the simulated scenes -- such as the type of sources, their sound levels or the event density -- are set by the experimenter. Based on knowledge of the human auditory system, the model abstracts the sound environment as a composite object, a sum of soundsources. The usefulness of the proposed model is assessed on two areas of investigation. The first is related to the soundscape perception issue, where the model is used to propose an innovative experimental protocol to study pleasantness perception of urban soundscape. The second tackles the major issue of evaluation in machine listening, for which we consider simulated data in order to powerfully assess the generalization capacities of automatic sound event detection systems

Styles APA, Harvard, Vancouver, ISO, etc.

5

Moussallam, Manuel. « Représentations redondantes et hiérarchiques pour l'archivage et la compression de scènes sonores ». Phd thesis, Télécom ParisTech, 2012. http://pastel.archives-ouvertes.fr/pastel-00834272.

Texte intégral

Résumé :

L'objet de cette thèse est l'analyse et le traitement automatique de grands volumes de données audio. Plus particulièrement, on s'intéresse à l'archivage, tâche qui regroupe, au moins, deux problématiques: la compression des données, et l'indexation du contenu de celles-ci. Ces deux problématiques définissent chacune des objectifs, parfois concurrents, dont la prise en compte simultanée s'avère donc difficile. Au centre de cette thèse, il y a donc la volonté de construire un cadre cohérent à la fois pour la compression et pour l'indexation d'archives sonores. Les représentations parcimonieuses de signaux dans des dictionnaires redondants ont récemment montré leur capacité à remplir une telle fonction. Leurs propriétés ainsi que les méthodes et algorithmes permettant de les obtenir sont donc étudiés dans une première partie de cette thèse. Le cadre applicatif relativement contraignant (volume des données) va nous amener à choisir parmi ces derniers des algorithmes itératifs, appelés également gloutons. Une première contribution de cette thèse consiste en la proposition de variantes du célèbre Matching Pursuit basées sur un sous-échantillonnage aléatoire et dynamique de dictionnaires. L'adaptation au cas de dictionnaires temps-fréquence structurés (union de bases de cosinus locaux) nous permet d'espérer une amélioration significative des performances en compression de scènes sonores. Ces nouveaux algorithmes s'accompagnent d'une modélisation statistique originale des propriétés de convergence usant d'outils empruntés à la théorie des valeurs extrêmes. Les autres contributions de cette thèse s'attaquent au second membre du problème d'archivage: l'indexation. Le même cadre est cette fois-ci envisagé pour mettre à jour les différents niveaux de structuration des données. Au premier plan, la détection de redondances et répétitions. A grande échelle, un système robuste de détection de motifs récurrents dans un flux radiophonique par comparaison d'empreintes est proposé. Ses performances comparatives sur une campagne d'évaluation du projet QUAERO confirment la pertinence de cette approche. L'exploitation des structures pour un contexte autre que la compression est également envisagé. Nous proposons en particulier une application à la séparation de sources informée par la redondance pour illustrer la variété de traitements que le cadre choisi autorise. La synthèse des différents éléments permet alors d'envisager un système d'archivage répondant aux contraintes par la hiérarchisation des objectifs et des traitements.

Styles APA, Harvard, Vancouver, ISO, etc.

6

Moussallam, Manuel. « Représentations redondantes et hiérarchiques pour l'archivage et la compression de scènes sonores ». Electronic Thesis or Diss., Paris, ENST, 2012. http://www.theses.fr/2012ENST0079.

Texte intégral

Résumé :

L'objet de cette thèse est l'analyse et le traitement automatique de grands volumes de données audio. Plus particulièrement, on s'intéresse à l'archivage, tâche qui regroupe, au moins, deux problématiques: la compression des données, et l'indexation du contenu de celles-ci. Ces deux problématiques définissent chacune des objectifs, parfois concurrents, dont la prise en compte simultanée s'avère donc difficile. Au centre de cette thèse, il y a donc la volonté de construire un cadre cohérent à la fois pour la compression et pour l'indexation d'archives sonores. Les représentations parcimonieuses de signaux dans des dictionnaires redondants ont récemment montré leur capacité à remplir une telle fonction. Leurs propriétés ainsi que les méthodes et algorithmes permettant de les obtenir sont donc étudiés dans une première partie de cette thèse. Le cadre applicatif relativement contraignant (volume des données) va nous amener à choisir parmi ces derniers des algorithmes itératifs, appelés également gloutons. Une première contribution de cette thèse consiste en la proposition de variantes du célèbre Matching Pursuit basées sur un sous-échantillonnage aléatoire et dynamique de dictionnaires. L'adaptation au cas de dictionnaires temps-fréquence structurés (union de bases de cosinus locaux) nous permet d'espérer une amélioration significative des performances en compression de scènes sonores. Ces nouveaux algorithmes s'accompagnent d'une modélisation statistique originale des propriétés de convergence usant d'outils empruntés à la théorie des valeurs extrêmes. Les autres contributions de cette thèse s'attaquent au second membre du problème d'archivage: l'indexation. Le même cadre est cette fois-ci envisagé pour mettre à jour les différents niveaux de structuration des données. Au premier plan, la détection de redondances et répétitions. A grande échelle, un système robuste de détection de motifs récurrents dans un flux radiophonique par comparaison d'empreintes est proposé. Ses performances comparatives sur une campagne d'évaluation du projet QUAERO confirment la pertinence de cette approche. L'exploitation des structures pour un contexte autre que la compression est également envisagé. Nous proposons en particulier une application à la séparation de sources informée par la redondance pour illustrer la variété de traitements que le cadre choisi autorise. La synthèse des différents éléments permet alors d'envisager un système d'archivage répondant aux contraintes par la hiérarchisation des objectifs et des traitements
The main goal of this work is automated processing of large volumes of audio data. Most specifically, one is interested in archiving, a process that encompass at least two distinct problems: data compression and data indexing. Jointly addressing these problems is a difficult task since many of their objectives may be concurrent. Therefore, building a consistent framework for audio archival is the matter of this thesis. Sparse representations of signals in redundant dictionaries have recently been found of interest for many sub-problems of the archival task. Sparsity is a desirable property both for compression and for indexing. Methods and algorithms to build such representations are the first topic of this thesis. Given the dimensionality of the considered data, greedy algorithms will be particularly studied. A first contribution of this thesis is the proposal of a variant of the famous Matching Pursuit algorithm, that exploits randomness and sub-sampling of very large time frequency dictionaries. We show that audio compression (especially at low bit-rate) can be improved using this method. This new algorithms comes with an original modeling of asymptotic pursuit behaviors, using order statistics and tools from extreme values theory. Other contributions deal with the second member of the archival problem: indexing. The same framework is used and applied to different layers of signal structures. First, redundancies and musical repetition detection is addressed. At larger scale, we investigate audio fingerprinting schemes and apply it to radio broadcast on-line segmentation. Performances have been evaluated during an international campaign within the QUAERO project. Finally, the same framework is used to perform source separation informed by the redundancy. All these elements validate the proposed framework for the audio archiving task. The layered structures of audio data are accessed hierarchically by greedy decomposition algorithms and allow processing the different objectives of archival at different steps, thus addressing them within the same framework

Styles APA, Harvard, Vancouver, ISO, etc.

7

Baskind, Alexis. « Modèles et méthodes de description spatiale de scènes sonores : application aux enregistrements binauraux ». Paris 6, 2003. http://www.theses.fr/2003PA066407.

Texte intégral

Styles APA, Harvard, Vancouver, ISO, etc.

8

Rompré, Louis. « Vers une méthode de classification de fichiers sonores / ». Thèse, Trois-Rivières : Université du Québec à Trois-Rivières, 2007. http://www.uqtr.ca/biblio/notice/resume/30024804R.pdf.

Texte intégral

Styles APA, Harvard, Vancouver, ISO, etc.

9

Rompré, Louis. « Vers une méthode de classification de fichiers sonores ». Thèse, Université du Québec à Trois-Rivières, 2007. http://depot-e.uqtr.ca/2022/1/030024804.pdf.

Texte intégral

Styles APA, Harvard, Vancouver, ISO, etc.

10

Perotin, Lauréline. « Localisation et rehaussement de sources de parole au format Ambisonique : analyse de scènes sonores pour faciliter la commande vocale ». Thesis, Université de Lorraine, 2019. http://www.theses.fr/2019LORR0124/document.

Texte intégral

Résumé :

Cette thèse s'inscrit dans le contexte de l'essor des assistants vocaux mains libres. Dans un environnement domestique, l'appareil est généralement posé à un endroit fixe, tandis que le locuteur s'adresse à lui depuis diverses positions, sans nécessairement s'appliquer à être proche du dispositif, ni même à lui faire face. Cela ajoute des difificultés majeures par rapport au cas, plus simple, de la commande vocale en champ proche (pour les téléphones portables par exemple) : ici, la réverbération est plus importante ; des réflexions précoces sur les meubles entourant l'appareil peuvent brouiller le signal ; les bruits environnants sont également sources d'interférences. À ceci s'ajoutent de potentiels locuteurs concurrents qui rendent la compréhension du locuteur principal particulièrement difficile. Afin de faciliter la reconnaissance vocale dans ces conditions adverses, plusieurs pré-traitements sont proposés ici. Nous utilisons un format audio spatialisé, le format Ambisonique, adapté à l'analyse de scènes sonores. Dans un premier temps, nous présentons une méthode de localisation des sources sonores basée sur un réseau de neurones convolutif et récurrent. Nous proposons des descripteurs inspirés du vecteur d'intensité acoustique qui améliorent la performance de localisation, notamment dans des situations réelles où plusieurs sources sont présentes et l'antenne de microphones est posée sur une table. La technique de visualisation appelée layerwise relevance propagation (LRP) met en valeur les zones temps-fréquence positivement corrélées avec la localisation prédite par le réseau dans un cas donné. En plus d'être méthodologiquement indispensable, cette analyse permet d'observer que le réseau de neurones exploite principalement les zones dans lesquelles le son direct domine la réverbération et le bruit ambiant. Dans un second temps, nous proposons une méthode pour rehausser la parole du locuteur principal et faciliter sa reconnaissance. Nous nous plaçons dans le cadre de la formation de voies basée sur des masques temps-fréquence estimés par un réseau de neurones. Afin de traiter le cas où plusieurs personnes parlent à un volume similaire, nous utilisons l'information de localisation pour faire un premier rehaussement à large bande dans la direction du locuteur cible. Nous montrons que donner cette information supplémentaire au réseau n'est pas suffisant dans le cas où deux locuteurs sont proches ; en revanche, donner en plus la version rehaussée du locuteur concurrent permet au réseau de renvoyer de meilleurs masques. Ces masques permettent d'en déduire un filtre multicanal qui améliore grandement la reconnaissance vocale. Nous évaluons cet algorithme dans différents environnements, y compris réels, grâce à un moteur de reconnaissance de la parole utilisé comme boîte noire. Dans un dernier temps, nous combinons les systèmes de localisation et de rehaussement et nous évaluons la robustesse du second aux imprécisions du premier sur des exemples réels
This work was conducted in the fast-growing context of hands-free voice command. In domestic environments, smart devices are usually laid in a fixed position, while the human speaker gives orders from anywhere, not necessarily next to the device, or nor even facing it. This adds difficulties compared to the problem of near-field voice command (typically for mobile phones) : strong reverberation, early reflections on furniture around the device, and surrounding noises can degrade the signal. Moreover, other speakers may interfere, which make the understanding of the target speaker quite difficult. In order to facilitate speech recognition in such adverse conditions, several preprocessing methods are introduced here. We use a spatialized audio format suitable for audio scene analysis : the Ambisonic format. We first propose a sound source localization method that relies on a convolutional and recurrent neural network. We define an input feature vector inspired by the acoustic intensity vector which improves the localization performance, in particular in real conditions involving several speakers and a microphone array laid on a table. We exploit the visualization technique called layerwise relevance propagation (LRP) to highlight the time-frequency zones that are correlate positively with the network output. This analysis is of paramount importance to establish the validity of a neural network. In addition, it shows that the neural network essentially relies on time-frequency zones where direct sound dominates reverberation and background noise. We then present a method to enhance the voice of the main speaker and ease its recognition. We adopt a mask-based beamforming framework based on a time-frequency mask estimated by a neural network. To deal with the situation of multiple speakers with similar loudness, we first use a wideband beamformer to enhance the target speaker thanks to the associated localization information. We show that this additional information is not enough for the network when two speakers are close to each other. However, if we also give an enhanced version of the interfering speaker as input to the network, it returns much better masks. The filters generated from those masks greatly improve speech recognition performance. We evaluate this algorithm in various environments, including real ones, with a black-box automatic speech recognition system. Finally, we combine the proposed localization and enhancement systems and evaluate the robustness of the latter to localization errors in real environments

Styles APA, Harvard, Vancouver, ISO, etc.

11

Perotin, Lauréline. « Localisation et rehaussement de sources de parole au format Ambisonique : analyse de scènes sonores pour faciliter la commande vocale ». Electronic Thesis or Diss., Université de Lorraine, 2019. http://www.theses.fr/2019LORR0124.

Texte intégral

Résumé :

Cette thèse s'inscrit dans le contexte de l'essor des assistants vocaux mains libres. Dans un environnement domestique, l'appareil est généralement posé à un endroit fixe, tandis que le locuteur s'adresse à lui depuis diverses positions, sans nécessairement s'appliquer à être proche du dispositif, ni même à lui faire face. Cela ajoute des difificultés majeures par rapport au cas, plus simple, de la commande vocale en champ proche (pour les téléphones portables par exemple) : ici, la réverbération est plus importante ; des réflexions précoces sur les meubles entourant l'appareil peuvent brouiller le signal ; les bruits environnants sont également sources d'interférences. À ceci s'ajoutent de potentiels locuteurs concurrents qui rendent la compréhension du locuteur principal particulièrement difficile. Afin de faciliter la reconnaissance vocale dans ces conditions adverses, plusieurs pré-traitements sont proposés ici. Nous utilisons un format audio spatialisé, le format Ambisonique, adapté à l'analyse de scènes sonores. Dans un premier temps, nous présentons une méthode de localisation des sources sonores basée sur un réseau de neurones convolutif et récurrent. Nous proposons des descripteurs inspirés du vecteur d'intensité acoustique qui améliorent la performance de localisation, notamment dans des situations réelles où plusieurs sources sont présentes et l'antenne de microphones est posée sur une table. La technique de visualisation appelée layerwise relevance propagation (LRP) met en valeur les zones temps-fréquence positivement corrélées avec la localisation prédite par le réseau dans un cas donné. En plus d'être méthodologiquement indispensable, cette analyse permet d'observer que le réseau de neurones exploite principalement les zones dans lesquelles le son direct domine la réverbération et le bruit ambiant. Dans un second temps, nous proposons une méthode pour rehausser la parole du locuteur principal et faciliter sa reconnaissance. Nous nous plaçons dans le cadre de la formation de voies basée sur des masques temps-fréquence estimés par un réseau de neurones. Afin de traiter le cas où plusieurs personnes parlent à un volume similaire, nous utilisons l'information de localisation pour faire un premier rehaussement à large bande dans la direction du locuteur cible. Nous montrons que donner cette information supplémentaire au réseau n'est pas suffisant dans le cas où deux locuteurs sont proches ; en revanche, donner en plus la version rehaussée du locuteur concurrent permet au réseau de renvoyer de meilleurs masques. Ces masques permettent d'en déduire un filtre multicanal qui améliore grandement la reconnaissance vocale. Nous évaluons cet algorithme dans différents environnements, y compris réels, grâce à un moteur de reconnaissance de la parole utilisé comme boîte noire. Dans un dernier temps, nous combinons les systèmes de localisation et de rehaussement et nous évaluons la robustesse du second aux imprécisions du premier sur des exemples réels
This work was conducted in the fast-growing context of hands-free voice command. In domestic environments, smart devices are usually laid in a fixed position, while the human speaker gives orders from anywhere, not necessarily next to the device, or nor even facing it. This adds difficulties compared to the problem of near-field voice command (typically for mobile phones) : strong reverberation, early reflections on furniture around the device, and surrounding noises can degrade the signal. Moreover, other speakers may interfere, which make the understanding of the target speaker quite difficult. In order to facilitate speech recognition in such adverse conditions, several preprocessing methods are introduced here. We use a spatialized audio format suitable for audio scene analysis : the Ambisonic format. We first propose a sound source localization method that relies on a convolutional and recurrent neural network. We define an input feature vector inspired by the acoustic intensity vector which improves the localization performance, in particular in real conditions involving several speakers and a microphone array laid on a table. We exploit the visualization technique called layerwise relevance propagation (LRP) to highlight the time-frequency zones that are correlate positively with the network output. This analysis is of paramount importance to establish the validity of a neural network. In addition, it shows that the neural network essentially relies on time-frequency zones where direct sound dominates reverberation and background noise. We then present a method to enhance the voice of the main speaker and ease its recognition. We adopt a mask-based beamforming framework based on a time-frequency mask estimated by a neural network. To deal with the situation of multiple speakers with similar loudness, we first use a wideband beamformer to enhance the target speaker thanks to the associated localization information. We show that this additional information is not enough for the network when two speakers are close to each other. However, if we also give an enhanced version of the interfering speaker as input to the network, it returns much better masks. The filters generated from those masks greatly improve speech recognition performance. We evaluate this algorithm in various environments, including real ones, with a black-box automatic speech recognition system. Finally, we combine the proposed localization and enhancement systems and evaluate the robustness of the latter to localization errors in real environments

Styles APA, Harvard, Vancouver, ISO, etc.

12

BOBAN, PATRICK. « Iconographie du sanctuaire d'Eleusis : études des représentations figurées dans l'art grec et romain : essai de classification thématique selon le triptyque scènes mythiques, scènes rituelles, scènes initiatiques ». Dijon, 1994. http://www.theses.fr/1994DIJOL008.

Texte intégral

Résumé :

La thèse se présente en deux grandes parties. L'une aborde les aspects des cultes et des mystères célèbres à Eleusis. L'autre est une étude des représentations figurées. Cette recherche a pour but. Tout d'abord, de présenter un catalogue des plus complet possible, en respectant la chronologie, et en décrivant les scènes par catégories thématiques et par supports : céramiques peintes, statues, reliefs, terres cuites et monnaies pour l'art grec, sarcophages, mosaïques et monnaies pour l'art romain. Ensuite, mettre en évidence l'évolution et la fluctuation thématique et en expliquer les raisons. Enfin, aborder les diverses significations que peuvent revêtir certains thèmes, d'une époque à l'autre. L'étude aborde aussi plusieurs problèmes d'interprétations de scènes figurées, comme la présence de Dionysos dans le cercle des divinités éleusiniennes; la personnalité des divinités chthoniennes que sont Theos et Thea, et l'origine du syncrétisme des rites dionysiaques et demétriaques dans les monuments figurés de l'art romain.

Styles APA, Harvard, Vancouver, ISO, etc.

13

Gribonval, Rémi. « Approximations non-linéaires pour l'analyse de signaux sonores ». Phd thesis, Université Paris Dauphine - Paris IX, 1999. http://tel.archives-ouvertes.fr/tel-00583662.

Texte intégral

Résumé :

La classification de signaux en grande dimension rend nécessaire la sélection d'un petit nombre de structures caractéristiques pour représenter chaque signal. Les approximations non-linéaires donnent lieu à des représentations concises, parce qu'elles s'adaptent à la structure de chaque signal analysé. Leur emploi est prometteur. Une première partie du travail du thèse définit des représentations adaptatives rapides de signaux comme combinaisons linéaires d'atomes extraits d'un dictionnaire de vecteurs. A partir de l'algorithme de Matching Pursuit, plusieurs méthodes itératives sont proposées pour mettre en lumière les structures caractéristiques des signaux sonores. Le Matching Pursuit Harmonique décompose un signal en composantes harmoniques élémentaires. Le Matching Pursuit "Chirpé" extrait les variations de fréquence instantanée en tirant parti d'une analyse fine des crêtes du dictionnaire de Gabor multi-échelle. Les approximations fournies par le Matching Pursuit Haute-résolution préservent les transitoires des signaux analysés, en imposant des contraintes de résolution temporelle. Nous accélérons ces techniques en employant des sous-dictionnaires de maxima locaux. Notre travail est consacré dans un second temps à l'étude de l'"Analyse Discriminante Non-linéaire". Pour classifier des signaux, les méthodes d'Analyse Discriminante Linéaire réduisent la dimension en les projetant sur un sous-espace pré-déterminé. Une projection adaptative, en fonction du signal analysé, extrait de celui-ci des caractéristiques qui lui sont propres. Celles-ci le distinguent et permettent de le classifier efficacement. Nous déterminons la stratégie optimale de projection adaptative pour la classification de bruits gaussiens colorés. Afin de classifier des transitoires, nous explorons enfin une méthode utilisant les maxima du module de la transformée en ondelettes et des arbres de décision. Cette approche permet de surmonter les difficultés liées à l'invariance par translation des signaux à classifier.

Styles APA, Harvard, Vancouver, ISO, etc.

14

Homayouni, Saeid. « Caractérisation des Scènes Urbaines par Analyse des Images Hyperspectrales ». Phd thesis, Télécom ParisTech, 2005. http://pastel.archives-ouvertes.fr/pastel-00002521.

Texte intégral

Résumé :

La caractérisation d'un environnement tel que le milieu urbain est une tâche délicate car ce milieu est un phénomène complexe par différents aspects. Parmi ceux-ci, l'aspect géographique est considéré comme le plus important qui puisse être étudié par les technologies d'acquisition et les techniques d'analyse de la télédétection. En particulier, la télédétection hyperspectrale a montré son potentiel pour l'acquisition de données et l'extraction d'informations nécessaires pour la modélisation du milieu urbain. Dans cette thèse, pour l'analyse d'image hyperspectrale, deux stratégies supervisée et non supervisée ont été choisi. Nous avons appliqué les techniques de Mise en Correspondance Spectrale, en tant que les méthodes supervisées, en vue de la cartographie des matériaux urbains. Afin d'améliorer les résultats de ces techniques, nous avons proposé une technique de fusion au niveau de la décision. Par ailleurs, une technique non supervisée basée sur l'Analyse en Composantes Indépendantes pour la séparation spectrale et la classification, comme une solution de problème de mélange, est proposée. Elle emploie la technique de groupage C-Moyens Flou, afin d'obtenir une carte de classification floue et sub-pixelique. Ces techniques sont employées sur les données images hyperspectrales acquises par le capteur CASI sur la ville de Toulouse, en France. Elles sont enregistrées en 32 canaux spectraux avec la résolution spatiale de 2 mètres et 48 canaux en 4 mètres de résolution spatiale. Enfin, nous avons comparé les résultats de ces méthodes avec des données de vérité terrain et une évaluation du taux d'erreur de classification a été réalisée pour toutes les techniques.

Styles APA, Harvard, Vancouver, ISO, etc.

15

Duan, Liuyun. « Modélisation géométrique de scènes urbaines par imagerie satellitaire ». Thesis, Université Côte d'Azur (ComUE), 2017. http://www.theses.fr/2017AZUR4025.

Texte intégral

Résumé :

La modélisation automatique de villes à partir d’images satellites est l'un des principaux défis en lien avec la reconstruction urbaine. Son objectif est de représenter des villes en 3D de manière suffisamment compacte et précise. Elle trouve son application dans divers domaines, qui vont de la planification urbaine aux télécommunications, en passant par la gestion des catastrophes. L'imagerie satellite offre plusieurs avantages sur l'imagerie aérienne classique, tels qu'un faible coût d'acquisition, une couverture mondiale et une bonne fréquence de passage au-dessus des sites visités. Elle impose toutefois un certain nombre de contraintes techniques. Les méthodes existantes ne permettent que la synthèse de DSM (Digital Surface Models), dont la précision est parfois inégale. Cette dissertation décrit une méthode entièrement automatique pour la production de modèles 3D compacts, précis et répondant à une sémantique particulière, à partir de deux images satellites en stéréo. Cette méthode repose sur deux grands concepts. D'une part, la description géométrique des objets et leur assimilation à des catégories génériques sont effectuées simultanément, conférant ainsi une certaine robustesse face aux occlusions partielles ainsi qu'à la faible qualité des images. D'autre part, la méthode opère à une échelle géométrique très basse, ce qui permet la préservation de la forme des objets, avec finalement, une plus grande efficacité et un meilleur passage à l'échelle. Pour générer des régions élémentaires, un algorithme de partitionnement de l'image en polygones convexes est présenté
Automatic city modeling from satellite imagery is one of the biggest challenges in urban reconstruction. The ultimate goal is to produce compact and accurate 3D city models that benefit many application fields such as urban planning, telecommunications and disaster management. Compared with aerial acquisition, satellite imagery provides appealing advantages such as low acquisition cost, worldwide coverage and high collection frequency. However, satellite context also imposes a set of technical constraints as a lower pixel resolution and a wider that challenge 3D city reconstruction. In this PhD thesis, we present a set of methodological tools for generating compact, semantically-aware and geometrically accurate 3D city models from stereo pairs of satellite images. The proposed pipeline relies on two key ingredients. First, geometry and semantics are retrieved simultaneously providing robust handling of occlusion areas and low image quality. Second, it operates at the scale of geometric atomic regions which allows the shape of urban objects to be well preserved, with a gain in scalability and efficiency. Images are first decomposed into convex polygons that capture geometric details via Voronoi diagram. Semantic classes, elevations, and 3D geometric shapes are then retrieved in a joint classification and reconstruction process operating on polygons. Experimental results on various cities around the world show the robustness, scalability and efficiency of the proposed approach

Styles APA, Harvard, Vancouver, ISO, etc.

16

Blachon, David. « Reconnaissance de scènes multimodale embarquée ». Thesis, Université Grenoble Alpes (ComUE), 2016. http://www.theses.fr/2016GREAM001/document.

Texte intégral

Résumé :

Contexte : Cette thèse se déroule dans les contextes de l'intelligence ambiante et de la reconnaissance de scène (sur mobile). Historiquement, le projet vient de l'entreprise ST-Ericsson. Il émane d'un besoin de développer et intégrer un "serveur de contexte" sur smartphone capable d'estimer et de fournir des informations de contexte pour les applications tierces qui le demandent. Un exemple d'utilisation consiste en une réunion de travail où le téléphone sonne~; grâce à la reconnaissance de la scène, le téléphone peut automatiquement réagir et adapter son comportement, par exemple en activant le mode vibreur pour ne pas déranger.Les principaux problèmes de la thèse sont les suivants : d'abord, proposer une définition de ce qu'est une scène et des exemples de scènes pertinents pour l'application industrielle ; ensuite, faire l'acquisition d'un corpus de données à exploiter par des approches d'apprentissage automatique~; enfin, proposer des solutions algorithmiques au problème de la reconnaissance de scène.Collecte de données : Aucune des bases de données existantes ne remplit les critères fixés (longs enregistrements continus, composés de plusieurs sources de données synchronisées dont l'audio, avec des annotations pertinentes).Par conséquent, j'ai développé une application Android pour la collecte de données. L'application est appelée RecordMe et a été testé avec succès sur plus de 10 appareils. L'application a été utilisée pour 2 campagnes différentes, incluant la collecte de scènes. Cela se traduit par plus de 500 heures enregistrées par plus de 25 bénévoles, répartis principalement dans la région de Grenoble, mais aussi à l'étranger (Dublin, Singapour, Budapest). Pour faire face au problème de protection de la vie privée et de sécurité des données, des mesures ont été mises en place dans le protocole et l'application de collecte. Par exemple, le son n'est pas sauvegardé, mes des coefficients MFCCs sont enregistrés.Définition de scène : L'étude des travaux existants liés à la tâche de reconnaissance de scène, et l'analyse des annotations fournies par les bénévoles lors de la collecte de données, ont permis de proposer une définition d'une scène. Elle est définie comme la généralisation d'une situation, composée d'un lieu et une action effectuée par une seule personne (le propriétaire du smartphone). Des exemples de scènes incluent les moyens de transport, la réunion de travail, ou le déplacement à pied dans la rue. La notion de composition permet de décrire la scène avec plusieurs types d'informations. Cependant, la définition est encore trop générique, et elle pourrait être complétée par des informations additionnelles, intégrée à la définition comme de nouveaux éléments de la composition.Algorithmique : J'ai réalisé plusieurs expériences impliquant des techniques d'apprentissage automatique supervisées et non non-supervisées. La partie supervisée consiste en de la classification. La méthode est commune~: trouver des descripteurs des données pertinents grâce à l'utilisation d'une méthode de sélection d'attribut ; puis, entraîner et tester plusieurs classifieurs (arbres de décisions et forêt d'arbres décisionnels ; GMM ; HMM, et DNN). Également, j'ai proposé un système à 2 étages composé de classifieurs formés pour identifier les concepts intermédiaires et dont les prédictions sont fusionnées afin d'estimer la scène la plus probable. Les expérimentations non-supervisées visent à extraire des informations à partir des données. Ainsi, j'ai appliqué un algorithme de regroupement hiérarchique ascendant, basé sur l'algorithme EM, sur les données d'accélération et acoustiques considérées séparément et ensemble. L'un des résultats est la distinction des données d'accélération en groupes basés sur la quantité d'agitation
Context: This PhD takes place in the contexts of Ambient Intelligence and (Mobile) Context/Scene Awareness. Historically, the project comes from the company ST-Ericsson. The project was depicted as a need to develop and embed a “context server” on the smartphone that would get and provide context information to applications that would require it. One use case was given for illustration: when someone is involved in a meeting and receives a call, then thanks to the understanding of the current scene (meet at work), the smartphone is able to automatically act and, in this case, switch to vibrate mode in order not to disturb the meeting. The main problems consist of i) proposing a definition of what is a scene and what examples of scenes would suit the use case, ii) acquiring a corpus of data to be exploited with machine learning based approaches, and iii) propose algorithmic solutions to the problem of scene recognition.Data collection: After a review of existing databases, it appeared that none fitted the criteria I fixed (long continuous records, multi-sources synchronized records necessarily including audio, relevant labels). Hence, I developed an Android application for collecting data. The application is called RecordMe and has been successfully tested on 10+ devices, running Android 2.3 and 4.0 OS versions. It has been used for 3 different campaigns including the one for scenes. This results in 500+ hours recorded, 25+ volunteers were involved, mostly in Grenoble area but abroad also (Dublin, Singapore, Budapest). The application and the collection protocol both include features for protecting volunteers privacy: for instance, raw audio is not saved, instead MFCCs are saved; sensitive strings (GPS coordinates, device ids) are hashed on the phone.Scene definition: The study of existing works related to the task of scene recognition, along with the analysis of the annotations provided by the volunteers during the data collection, allowed me to propose a definition of a scene. It is defined as a generalisation of a situation, composed of a place and an action performed by one person (the smartphone owner). Examples of scenes include taking a transportation, being involved in a work meeting, walking in the street. The composition allows to get different kinds of information to provide on the current scene. However, the definition is still too generic, and I think that it might be completed with additionnal information, integrated as new elements of the composition.Algorithmics: I have performed experiments involving machine learning techniques, both supervised and unsupervised. The supervised one is about classification. The method is quite standard: find relevant descriptors of the data through the use of an attribute selection method. Then train and test several classifiers (in my case, there were J48 and Random Forest trees ; GMM ; HMM ; and DNN). Also, I have tried a 2-stage system composed of a first step of classifiers trained to identify intermediate concepts and whose predictions are merged in order to estimate the most likely scene. The unsupervised part of the work aimed at extracting information from the data, in an unsupervised way. For this purpose, I applied a bottom-up hierarchical clustering, based on the EM algorithm on acceleration and audio data, taken separately and together. One of the results is the distinction of acceleration into groups based on the amount of agitation

Styles APA, Harvard, Vancouver, ISO, etc.

17

Baelde, Maxime. « Modèles génératifs pour la classification et la séparation de sources sonores en temps-réel ». Thesis, Lille 1, 2019. http://www.theses.fr/2019LIL1I058/document.

Texte intégral

Résumé :

Cette thèse s'inscrit dans le cadre de l'entreprise A-Volute, éditrice de logiciels d'amélioration d'expérience audio. Elle propose un radar qui transpose l'information sonore multi-canale en information visuelle en temps-réel. Ce radar, bien que pertinent, manque d'intelligence car il analyse uniquement le flux audio en terme d'énergie et non en termes de sources sonores distinctes. Le but de cette thèse est de développer des algorithmes de classification et de séparation de sources sonores en temps-réel. D'une part, la classification de sources sonores a pour but d'attribuer un label (par exemple voix) à un son monophonique (un label) ou polyphonique (plusieurs labels). La méthode développée utilise un attribut spécifique, le spectre de puissance normalisé, utile à la fois dans le cas monophonique et polyphonique de part sa propriété d'additivité des sources sonores. Cette méthode utilise un modèle génératif qui permet de dériver une règle de décision basée sur une estimation non paramétrique. Le passage en temps-réel est réalisé grâce à un pré-traitement des prototypes avec une classification hiérarchique ascendante. Les résultats sont encourageants sur différentes bases de données (propriétaire et de comparaison), que ce soit en terme de précision ou de temps de calcul, notamment dans le cas polyphonique. D'autre part, la séparation de sources consiste à estimer les sources en terme de signal dans un mélange. Deux approches de séparation ont été considérées dans la thèse. La première considère les signaux à retrouver comme des données manquantes et à les estimer via un schéma génératif et une modélisation probabiliste. L'autre approche consiste, à partir d'exemples sonores présent dans une base de données, à calculer des transformations optimales de plusieurs exemples dont la combinaison tends vers le mélange observé. Les deux propositions sont complémentaires, avec chacune des avantages et inconvénients (rapidité de calcul pour la première, interprétabilité du résultat pour la deuxième). Les résultats expérimentaux semblent prometteurs et nous permettent d'envisager des perspectives de recherches intéressantes pour chacune des propositions
This thesis is part of the A-Volute company, an audio enhancement softwares editor. It offers a radar that translates multi-channel audio information into visual information in real-time. This radar, although relevant, lacks intelligence because it only analyses the audio stream in terms of energy and not in terms of separate sound sources. The purpose of this thesis is to develop algorithms for classifying and separating sound sources in real time. On the one hand, audio source classification aims to assign a label (e.g. voice) to a monophonic (one label) or polyphonic (several labels) sound. The developed method uses a specific feature, the normalized power spectrum, which is useful in both monophonic and polyphonic cases due to its additive properties of the sound sources. This method uses a generative model that allows to derive a decision rule based on a non-parametric estimation. The real-time constraint is achieved by pre-processing the prototypes with a hierarchical clustering. The results are encouraging on different databases (owned and benchmark), both in terms of accuracy and computation time, especially in the polyphonic case. On the other hand, source separation consists in estimating the sources in terms of signal in a mixture. Two approaches to this purpose were considered in this thesis. The first considers the signals to be found as missing data and estimates them through a generative process and probabilistic modelling. The other approach consists, from sound examples present in a database, in computing optimal transformations of several examples whose combination tends towards the observed mixture. The two proposals are complementary, each having advantages and drawbacks (computation time for the first, interpretability of the result for the second). The experimental results seem promising and allow us to consider interesting research perspectives for each of the proposals

Styles APA, Harvard, Vancouver, ISO, etc.

18

Dellandréa, Emmanuel. « Analyse de signaux vidéos et sonores : application à l'étude de signaux médicaux ». Tours, 2003. http://www.theses.fr/2003TOUR4031.

Texte intégral

Résumé :

La problématique considérée concerne l'étude de séquences multimédia constituées d'images et de sons dont il s'agit d'étudier les corrélations de manière à aider à la compréhension de l'origine des bruits. L'analyse des séquences d'images consiste à suivre les objets en mouvement de manière à permettre leur étude. Une méthode générique, reposant sur une combinaison de suivi de régions et de contours, et une méthode adaptée aux objets homogènes, reposant sur la théorie des ensembles de niveaux, sont proposées. L'analyse des données sonores consiste en l'élaboration d'un système d'identification reposant sur des données sonores consiste en l'élaboration d'un système d'identification reposant sur l'étude de la structure des signaux grâce à des codages adaptés et à leur modélisation par les lois de Zipf. Ces méthodes ont été évaluées sur des séquences acoustico-radiologiques dans le cadre de l'étude de la pathologie du reflux gastro-oesophagien, en collaboration avec l'équipe Acoustique et Motricité Digestive de l'Université de Tours
The work deals with the study of multimedia sequences containing images and sounds. The analysis of images sequences consists in the tracking of moving objects in order to allow the study of their properties. The investigations have to enable the understanding of sounds when correlated to events in the image sequence. One generic method, based on the combination of regions and contours tracking, and one method adapted to homogeneous objects, based on level set theory, are proposed. The analysis of audio data consists in the development of an identification system based on the study of the structure of signals thanks to their coding and Zipf laws modeling. These methods have been evaluated on medical sequences within the framework of the gastro-oesophageal reflux pathology study, in collaboration with the Acoustique et Motricité Digestive research team of the University of Tours

Styles APA, Harvard, Vancouver, ISO, etc.

19

Vincent, Emmanuel. « Modèles d'instruments pour la séparation de sources et la transcription d'enregistrements musicaux ». Phd thesis, Université Pierre et Marie Curie - Paris VI, 2004. http://tel.archives-ouvertes.fr/tel-00544710.

Texte intégral

Résumé :

Depuis une quinzaine d'années, l'étude des enregistrements de musique de chambre se focalise sous deux points de vue distincts : la séparation de sources et la transcription polyphonique. La séparation de sources cherche à extraire des enregistrements les signaux correspondant aux instruments présents. La transcription polyphonique vise à les décrire par un ensemble de paramètres : noms des instruments, hauteurs et volumes des notes jouées, etc. Les méthodes existantes, fondées sur l'analyse spatiale et spectro-temporelle des enregistrements, fournissent des résultats satisfaisants sur des cas simples. Mais généralement leur performance se dégrade vite au-delà d'un nombre d'instruments limite ou en présence de réverbération, d'instruments de même tessiture ou de notes à intervalle harmonique. Notre hypothèse est que ces méthodes souffrent souvent de modèles de sources instrumentales trop génériques. Nous proposons d'y remédier par la création de modèles d'instruments spécifiques basés sur un apprentissage. Dans ce travail, nous justifions cette hypothèse par l'étude des informations pertinentes présentes dans les enregistrements musicaux et de leur exploitation par les méthodes existantes. Nous construisons ensuite de nouveaux modèles probabilistes d'instruments inspirés de l'Analyse en Sous-espaces Indépendants (ASI) et nous donnons quelques exemples d'instruments appris. Enfin nous appliquons ces modèles à la séparation et la transcription d'enregistrements réalistes, parmi lesquels des pistes de CD et des mélanges synthétiques convolutifs ou sous-déterminés de ces pistes.

Styles APA, Harvard, Vancouver, ISO, etc.

20

Besbes, Bassem. « Intégration de méthodes de représentation et de classification pour la détection et la reconnaissance d'obstacles dans des scènes routières ». Phd thesis, INSA de Rouen, 2011. http://tel.archives-ouvertes.fr/tel-00633109.

Texte intégral

Résumé :

Cette thèse s'inscrit dans le contexte de la vision embarquée pour la détection et la reconnaissance d'obstacles routiers, en vue d'application d'assistance à la conduite automobile.A l'issue d'une étude bibliographique, nous avons constaté que la problématique de détection d'obstacles routiers, notamment des piétons, à l'aide d'une caméra embarquée, ne peut être résolue convenablement sans recourir aux techniques de reconnaissance de catégories d'objets dans les images. Ainsi, une étude complète du processus de la reconnaissance est réalisée, couvrant les techniques de représentation,de classification et de fusion d'informations. Les contributions de cette thèse se déclinent principalement autour de ces trois axes.Notre première contribution concerne la conception d'un modèle d'apparence locale basée sur un ensemble de descripteurs locaux SURF (Speeded Up RobustFeatures) représentés dans un Vocabulaire Visuel Hiérarchique. Bien que ce modèle soit robuste aux larges variations d'apparences et de formes intra-classe, il nécessite d'être couplé à une technique de classification permettant de discriminer et de catégoriser précisément les objets routiers. Une deuxième contribution présentée dans la thèse porte sur la combinaison du Vocabulaire Visuel Hiérarchique avec un classifieur SVM.Notre troisième contribution concerne l'étude de l'apport d'un module de fusion multimodale permettant d'envisager la combinaison des images visibles et infrarouges.Cette étude met en évidence de façon expérimentale la complémentarité des caractéristiques locales et globales ainsi que la modalité visible et celle infrarouge.Pour réduire la complexité du système, une stratégie de classification à deux niveaux de décision a été proposée. Cette stratégie est basée sur la théorie des fonctions de croyance et permet d'accélérer grandement le temps de prise de décision.Une dernière contribution est une synthèse des précédentes : nous mettons à profit les résultats d'expérimentations et nous intégrons les éléments développés dans un système de détection et de suivi de piétons en infrarouge-lointain. Ce système a été validé sur différentes bases d'images et séquences routières en milieu urbain.

Styles APA, Harvard, Vancouver, ISO, etc.

21

Ranta, Radu. « Traitement et analyse de signaux sonores physiologiques : application à la phonoentérographie ». Phd thesis, Institut National Polytechnique de Lorraine - INPL, 2003. http://tel.archives-ouvertes.fr/tel-00005906.

Texte intégral

Résumé :

L'objectif de ce travail de recherche est le développement d'un système d'étude de sons, plus particulièrement dédié à la phonoentérographie, qui devrait aboutir à plus long terme à un outil d'aide au diagnostic. La première étape présente une chaîne d'instrumentation multi-voies spécifique. Elle est suivie par le pré-traitement: la détection, la segmentation et le débruitage par ondelettes sont réalisés avec un algorithme original optimisé par une méthode de point-fixe. Une deuxième phase introduit des connaissances a priori sur les sons abdominaux et étudie leur localisation spatiale. Les caractéristiques physiques (fréquence, intensité, durée) décrivent les sons individuellement. L'étude globale des phonoentérogrammes est réalisée à partir d'indices d'activité (nombre d'événements, énergie moyenne, etc.). Les caractéristiques physiques et les indices sont utilisés dans l'analyse statistique des signaux, par analyse en composantes principales et classification non supervisée.

Styles APA, Harvard, Vancouver, ISO, etc.

22

Alqasir, Hiba. « Apprentissage profond pour l'analyse de scènes de remontées mécaniques : amélioration de la généralisation dans un contexte multi-domaines ». Thesis, Lyon, 2020. http://www.theses.fr/2020LYSES045.

Texte intégral

Résumé :

Nous présentons notre travail sur la sécurité des télésièges par des techniques d'apprentissage profond dans le cadre du projet Mivao, qui vise à développer un système de vision par ordinateur qui acquiert des images de la station d'embarquement du télésiège, analyse les éléments essentiels et détecte les situations dangereuses. Dans ce scénario, nous avons différents télésièges répartis sur différentes stations de ski, avec une grande diversité de conditions d'acquisition et de géométries . Lorsque le système est installé pour un nouveau télésiège, l'objectif est d'effectuer une analyse de scène précise et fiable, étant donné le manque de données labellisées sur ce télésiège.Dans ce contexte, nous nous concentrons principalement sur le garde-corps du télésiège et proposons de classer chaque image en deux catégories, selon que le garde-corps est fermé ou ouvert. Il s'agit donc d'un problème de classification des images avec trois spécificités : (i) la catégorie d'image dépend d'un petit détail dans un fond encombré, (ii) les annotations manuelles ne sont pas faciles à obtenir, (iii) un classificateur formé sur certains télésièges devrait donner de bons résultats sur un nouveau. Pour guider le classificateur vers les zones importantes des images, nous avons proposé deux solutions : la détection d'objets et les réseaux siamois.Nos solutions sont motivées par la nécessité de minimiser les efforts d'annotation humaine tout en améliorant la précision du problème de la sécurité des télésièges. Cependant, ces contributions ne sont pas nécessairement limitées à ce contexte spécifique, et elles peuvent être appliquées à d'autres problèmes dans un contexte multi-domaine
This thesis presents our work on chairlift safety using deep learning techniques as part of the Mivao project, which aims to develop a computer vision system that acquires images of the chairlift boarding station, analyzes the crucial elements, and detects dangerous situations. In this scenario, we have different chairlifts spread over different ski resorts, with a high diversity of acquisition conditions and geometries; thus, each chairlift is considered a domain. When the system is installed for a new chairlift, the objective is to perform an accurate and reliable scene analysis, given the lack of labeled data on this new domain (chairlift).In this context, we mainly concentrate on the chairlift safety bar and propose to classify each image into two categories, depending on whether the safety bar is closed (safe) or open (unsafe). Thus, it is an image classification problem with three specific features: (i) the image category depends on a small detail (the safety bar) in a cluttered background, (ii) manual annotations are not easy to obtain, (iii) a classifier trained on some chairlifts should provide good results on a new one (generalization). To guide the classifier towards the important regions of the images, we have proposed two solutions: object detection and Siamese networks. Furthermore, we analyzed the generalization property of these two approaches. Our solutions are motivated by the need to minimize human annotation efforts while improving the accuracy of the chairlift safety problem. However, these contributions are not necessarily limited to this specific application context, and they may be applied to other problems in a multi-domain context

Styles APA, Harvard, Vancouver, ISO, etc.

23

Magnier, Caroline. « Production acoustique d'une flottille côtière : Application au suivi environnemental et à l'identification automatisée de sources sonores anthropiques ». Thesis, Université Grenoble Alpes (ComUE), 2018. http://www.theses.fr/2018GREAU040/document.

Texte intégral

Résumé :

Le trafic maritime est le principal contributeur des bruits sous-marins anthropique : depuis les années 1970, l’augmentation du trafic maritime hauturier a provoqué dans certaines zones une augmentation du bruit ambiant de plus de 10 dB. En réponse à cette préoccupation, la Directive Cadre pour la Stratégie pour le Milieu Marin (DCSMM) recommande un suivi acoustique. Peu d’études s’intéressent à l’activité côtière et aux bruits rayonnés par les petites embarcations ainsi qu’à leurs conséquences sur la faune marine alors que ces environnements côtiers sont les pourvoyeurs de 41.7 % des services écosystémiques produits par les océans.A mi-chemin entre le monde académique et le monde industriel, le travail présenté aux différents questions scientifiques et industrielles sur la thématique du trafic côtier, en termes de l’étude de son influence dans le paysage acoustique et de capacité à détecter et classifier les embarcations côtières.En l’absence d’information sur le trafic maritime côtier, un protocole d’identification visuelle par traitement d’images GoPro® produisant les mêmes données que l’AIS (position, vitesse, taille et type d’embarcation) est proposé et permet la création de carte du trafic maritime sur un disque de 1.6km de rayon. D’un point de vue acoustique, le trafic est caractérisé par deux descripteurs acoustiques, le SPL lié à la distance du bateau le plus proche et l’ANL caractérisant le nombre de bateaux dans un disque de 500 m de rayon. Le suivi spatio-temporel de ces descripteurs permet d’identifier l’impact du trafic maritime dans le paysage acoustique des environnements côtiers. La détection et la classification sont réalisées après caractérisation individuelle du bruit par un ensemble de paramètres acoustiques et par l’utilisation d’algorithmes d’apprentissage supervisé. Un protocole spécifique pour la création de l’arborescence de classification est proposé par comparaison des données acoustiques aux caractéristiques physiques et contextuelle de chaque bateau.Les travaux présentés sont illustrés sur la flottille d’embarcations côtières présente dans la baie de Calvi (Corse) durant la saison estivale
Marine traffic is the main contributor to anthropogenic underwater noise: since the 1970s, the increase in deep-sea shipping has increased the ambient noise by more than 10 dB in some areas. In response to this concern, the Marine Strategy Framework Directive (MSFD) recommends acoustic monitoring. Few studies are concerned with coastal activity and the noises radiated by small craft while these coastal environments are the purveyors of 41.7% of the ecosystem services produced by the oceans.Between the academic and the industrial world, this PhD was to answer the different scientific and industrial questions on the topic of the coastal traffic in terms of the influence in the soundscape and the detection and classification of the coastal craft.Without information on the coastal maritime traffic, a visual identification protocol is proposed using GoPro® images processing and produced the same data as the AIS (position, speed, size and type of craft); It allows to create maritime traffic maps on a disk of 1.6km radius. The traffic is characterized by two acoustic descriptors: the SPL linked to the distance of the nearest boat and the ANL linked to the number of boats present in a 500 m radius disc. The spatiotemporal monitoring of these descriptors allows to identify the impact on the maritime traffic on the coastal acoustic landscape. The acoustic detection and the classification are performed after individual characterization of the noise by a set of acoustic parameters and using of supervised machine learning algorithm. A specific protocol for the creation of the classification tree is proposed by comparing the acoustic data with the physical and contextual characteristics of each boat.The methods are applied on the flotilla of coastal boats present in the Bay of Calvi (Corsica) during summer

Styles APA, Harvard, Vancouver, ISO, etc.

24

Amberg, Virginie. « Analyse de scènes péri-urbaines à partir d'images radar haute résolution : application à l'extraction semi-automatique du réseau routier ». Phd thesis, Toulouse, INPT, 2005. http://oatao.univ-toulouse.fr/7452/1/amberg1.pdf.

Texte intégral

Résumé :

L'accroissement en résolution des futurs systèmes d'imagerie spatiale radar comme Cosmo-Skymed ou TerraSAR X permet d'envisager de nouvelles applications à la télédétection spatiale, liées entre autres aux techniques de reconnaissance de formes. Ainsi la détection et la reconnaissance de structures manufacturées de plus en plus petites (de la route au véhicule) sont envisageables avec la prochaine mise en orbite de ces futurs capteurs radar. L'objectif de cette thèse est l'interprétation de scènes urbaines à partir d'une unique image complexe (SLC) d'un radar à synthèse d'ouverture haute résolution (inférieure au mètre). Alors que de nombreux travaux tendent vers l'utilisation de données multiples(fusion optique radar, polarimétrie, etc.), nous avons considéré le cas le plus défavorable, mais encore le plus répandu aujourd'hui et pour les prochaines années, où une seule image est à la disposition de l'utilisateur. Alors que les techniques d'analyse de données moyenne résolution du type ERS sont assez bien maîtrisées, le contexte de la haute résolution radar est encore un point délicat : l'amélioration des résolutions s'accompagne d'une évolution de la nature de l'information des données radar et d'un accroissement de leur complexité. Dans ce manuscrit, après une analyse de cette information, une chaîne hiérarchique d'interprétation de scènes, extrayant à plusieurs niveaux des détails de plus en plus fins de la scène, est proposée et mis en application dans le contexte particulier de l'extraction du réseau routier. Nos travaux se sont ensuite articulés autour de trois problématiques principales. Dans un premier temps nous proposons un algorithme bayésien contextuel de classification de scènes radar, l'objectif de ce premier niveau étant d'obtenir une idée rapide de l'occupation des sols de la scène. Un second chapitre concerne le problème d'extraction quasi-automatique du réseau routier ; une méthode d'extraction, à base de transformée de Hough et d'algorithme de suivi, y est proposée. L'originalité de cette partie réside dans l'utilisation du résultat de la classification qui pilote et contraint le processus d'extraction. Dans un dernier chapitre, nous proposons une approche contextuelle pour l'extraction de routes des régions à forte densité en objets manufacturés brillants. Dans ce contexte, un nouvel opérateur rapport de détection de structures brillantes, moins sensibles aux conditions initiales que certains opérateurs existants, a été développé.

Styles APA, Harvard, Vancouver, ISO, etc.

25

Gille, Quentin. « Propositions pour un paradigme culturel de la phono-cinématographie : des phono-scènes aux vidéoclips et au-delà ». Doctoral thesis, Universite Libre de Bruxelles, 2014. http://hdl.handle.net/2013/ULB-DIPOT:oai:dipot.ulb.ac.be:2013/209309.

Texte intégral

Résumé :

La proposition centrale de cette thèse est double. D’une part, il s’agit de jeter les bases d’un modèle historique qui réunirait tous les dispositifs audiovisuels qui associent des images animées à une chanson populaire qui leur est préexistante sous un même paradigme culturel que nous baptiserons « phono-cinématographie ». Celui-ci aurait débuté vers la fin du XIXe siècle, avec l’invention du kinétoscope d’Edison, pour aboutir à nos jours avec l’émergence des vidéos musicales interactives sur Internet. D’autre part, il s’agit de nous interroger sur le rôle a priori central que les Beatles occupent au sein de cette histoire de la chanson populaire mise en image. Notre hypothèse principale est que le vidéoclip, tel qu’il s’est institutionnalisé au début des années 1980 pour ensuite se perpétuer jusque dans les années 2000, n’a rien d’une pratique culturelle (voir même d’un média) figé(e) :bien au contraire, cette pratique/ce média a été l’objet de réélaborations continues tant sur le plan de la production, de la diffusion que de la fonction.

Notre approche se situe à cheval sur l’histoire du cinéma, de la musique populaire et de la télévision. En nous appuyant sur certaines propositions théoriques et certains concepts formulés dans le champ des études cinématographiques ainsi que dans le champ des performance studies, nous serons particulièrement attentif aux questions de représentation qui se déploient dans ces différents dispositifs phono-cinématographiques :à savoir, les premiers films chantants (les phono-scènes Gaumont et les Vitaphone shorts), les juke-boxes équipés d’un écran (les Soundies et les Scopitones) et enfin les vidéos musicales télévisées (les films promotionnels et les vidéoclips).
Doctorat en Information et communication
info:eu-repo/semantics/nonPublished

Styles APA, Harvard, Vancouver, ISO, etc.

26

Kulikova, Maria. « Shape recognition for image scene analysis ». Nice, 2009. http://www.theses.fr/2009NICE4081.

Texte intégral

Résumé :

Cette thèse englobe deux parties principales. La première partie est dédiée au problème de la classification d’espèces d’arbres en utilisant des descripteurs de forme, en combinant ou non, avec ceux de radiométrie ou de texture. Nous montrons notamment que l’information sur la forme améliore la performance d’un classifieur. Pour cela, dans un premier temps, une étude des formes de couronnes d’arbres extraites à partir d’images aériennes fermées dans un espace de formes, en utilisant la notion de chemin géodésique sous deux métriques dans des espaces appropriés : une métrique non-élastique en utilisant la représentation par la fonction d’angle de la courbe, ainsi qu’une métrique élastique induite par une représentation par la racine carrée appelée q-fonction. Une étape préliminaire nécessaire à la classification est l’extraction des couronnes d’arbre. Dans une seconde partie nous abordons donc le problème de l’extraction d’objets à forme complexe arbitraire à partir des images de télédétection de très haute résolution. Nous construisons un modèle fondé sur les processus ponctuels marqués. Son originalité tient dans sa prise en compte d’objets à forme arbitraire par rapport aux objets à forme paramétrique, e. G. Ellipses ou rectangles. Les formes sélectionnées sont obtenues par la minimisation locale d’une énergie de type contours actifs avec différents a priori sur la forme incorporée. Les objets de la configuration finale sont ensuite sélectionnés parmi les candidats par une dynamique de naissances et morts multiple, couplée à un schéma de recuit simulé. L’approche est validée sur des images de zones forestières à très haute résolution fournies par l’Université d’Agriculture en Suède
This thesis includes two main parts. In the first part we address the problem of tree crown classification into species using shape features, without, or in combination with, those of radiometry and texture, to demonstrate that shape information improves classification performance. For this purpose, we first study the shapes of tree crowns extracted from very high resolution aerial infra-red images. For our study, we choose a methodology based on the shape analysis of closed continuous curves on shape spaces using geodesic paths under the bending metric with the angle function curve representation, and the elastic metric with the square root q-function representation? A necessary preliminary step to classification is extraction of the tree crowns. In the second part, we address thus the problem of extraction of multiple objects with complex, arbitrary shape from remote sensing images of very high resolution. We develop a model based on marked point process. Its originality lies on its use of arbitrarily-shaped objects as opposed to parametric shape objects, e. G. Ellipses or rectangles. The shapes considered are obtained by local minimisation of an energy of contour active type with weak and the strong shape prior knowledge included. The objects in the final (optimal) configuration are then selected from amongst these candidates by a birth-and-death dynamics embedded in an annealing scheme. The approach is validated on very high resolutions of forest provided by the Swedish University of Agriculture

Styles APA, Harvard, Vancouver, ISO, etc.

27

Tanquerel, Lucille. « Caractérisation des documents sonores : Etude et conception d'un procédé de calcul rapide de signature audio basée sur une perception limitée du contenu ». Caen, 2008. http://www.theses.fr/2008CAEN2056.

Texte intégral

Résumé :

La description des caractéristiques sonores d'un document est un élément clé pour réaliser des traitements automatiques impliquant des données audio. L'objectif de nos travaux est de décrire une méthode permettant de générer de manière compacte et rapide une signature d'un fichier sonore par l'extraction de caractéristiques physiques réparties sur le fichier (analyse spectrale du signal). L'innovation de notre proposition porte sur l'organisation de l'extraction des échantillons et sur le mode d'analyse pour fournir très rapidement une signature représentative du contenu musical. L'organisation de l'extraction définit la manière dont les échantillons sont prélevés. Notre proposition vise à réaliser un échantillonnage statistique séquentiel minimal réparti sur le fichier sonore. Le principe de cette proposition est basé sur le postulat que la collecte d'une faible quantité d'échantillons de petite durée suffit pour avoir une information résumant de manière efficace le rythme perçu. Notre méthode de validation repose d’une part sur une mesure d’erreur de reconnaissance objective. Nous montrons que la signature permet de comparer les morceaux entre eux et d’identifier fidèlement les morceaux identiques même si ceux-ci ne sont pas complets. Nous montrons également qu'elle peut associer deux moitiés d'un même morceau avec un taux de réussite non négligeable. La validation repose d'autre part sur la comparaison de la signature rythmique avec la perception humaine mais aussi sur la distinction des documents sonores en fonction de la langue parlée. Tous les tests de validation apportent des résultats intéressants compte tenu du temps de calcul
The description of the sound characteristics of a document is a key for treatments involving automatic audio data. The objective of our work is to describe a method able to generate rapidly a signature of a sound file by the extraction of physical characteristics over the file (spectral analysis of signal). The innovation of our proposal concerns the organization of the extraction of samples and the analysis mode to provide quickly a signature representative of musical content. The organization of extraction defines how samples are taken. Our proposal aims to achieve a statistical sequential minimum sampling allocated over the sound file. The principle of this proposal is based on the assumption that the collection of a small quantity of small duration samples is sufficient to have information summarizing effectively the perceived rhythm. Our validation method is based on an error objective recognition. We show that the signature can compare the files between them and accurately identify identical pieces even if they are not complete. We also show that it can combine two halves of the same song with a significant success rate. On the other hand the validation is based on the comparison of the rhythmical signature with human perception and also on the distinction of sound recordings according to the language spoken. All tests provide interesting results given the time of calculation

Styles APA, Harvard, Vancouver, ISO, etc.

28

Adeli, Mohammad. « Recherche de caractéristiques sonores et de correspondances audiovisuelles pour des systèmes bio-inspirés de substitution sensorielle de l'audition vers la vision ». Thèse, Université de Sherbrooke, 2016. http://hdl.handle.net/11143/8194.

Texte intégral

Résumé :

Résumé: Les systèmes de substitution sensorielle convertissent des stimuli d’une modalité sensorielle en des stimuli d’une autre modalité. Ils peuvent fournir les moyens pour les personnes handicapées de percevoir des stimuli d’une modalité défectueuse par une autre modalité. Le but de ce projet de recherche était d’étudier des systèmes de substitution de l’audition vers la vision. Ce type de substitution n’est pas bien étudié probablement en raison de la complexité du système auditif et des difficultés résultant de la désadaptation entre les sons audibles qui peuvent changer avec des fréquences allant jusqu’à 20000 Hz et des stimuli visuels qui changent très lentement avec le temps afin d’être perçus. Deux problèmes spécifiques des systèmes de substitution de l’audition vers la vision ont été ciblés par cette étude: la recherche de correspondances audiovisuelles et l’extraction de caractéristiques auditives. Une expérience audiovisuelle a été réalisée en ligne pour trouver les associations entre les caractéristiques auditives (la fréquence fondamentale et le timbre) et visuelles (la forme, la couleur, et la position verticale). Une forte corrélation entre le timbre des sons utilisés et des formes visuelles a été observée. Les sujets ont fortement associé des timbres “doux” avec des formes arrondies bleues, vertes ou gris clair, des timbres “durs” avec des formes angulaires pointues rouges, jaunes ou gris foncé et des timbres comportant simultanément des éléments de douceur et de dureté avec un mélange des deux formes visuelles arrondies et angulaires. La fréquence fondamentale n’a pas été associée à la position verticale, ni le niveau de gris ou la couleur. Étant donné la correspondance entre le timbre et une forme visuelle, dans l’étape sui- vante, un modèle hiérarchique flexible et polyvalent bio-inspiré pour analyser le timbre et extraire des caractéristiques importantes du timbre a été développé. Inspiré par les découvertes dans les domaines des neurosciences, neurosciences computationnelles et de la psychoacoustique, non seulement le modèle extrait-il des caractéristiques spectrales et temporelles d’un signal, mais il analyse également les modulations d’amplitude sur différentes échelles de temps. Il utilise un banc de filtres cochléaires pour résoudre les composantes spectrales d’un son, l’inhibition latérale pour améliorer la résolution spectrale, et un autre banc de filtres de modulation pour extraire l’enveloppe temporelle et la rugosité du son à partir des modulations d’amplitude. Afin de démontrer son potentiel pour la représentation du timbre, le modèle a été évalué avec succès pour trois applications : 1) la comparaison avec les valeurs subjectives de la rugosité 2) la classification d’instruments de musique 3) la sélection de caractéristiques pour les sons qui ont été regroupés en fonction de la forme visuelle qui leur avait été attribuée dans l’expérience audiovisuelle. La correspondance entre le timbre et la forme visuelle qui a été révélée par cette étude et le modèle proposé pour l’analyse de timbre peuvent être utilisés pour développer des systèmes de substitution de l’audition vers la vision intuitifs codant le timbre en formes visuelles.
Abstract: Sensory substitution systems encode a stimulus modality into another stimulus modality. They can provide the means for handicapped people to perceive stimuli of an impaired modality through another modality. The purpose of this study was to investigate auditory to visual substitution systems. This type of sensory substitution is not well-studied probably because of the complexities of the auditory system and the difficulties arising from the mismatch between audible sounds that can change with frequencies up to 20000 Hz and visual stimuli that should change very slowly with time to be perceived. Two specific problems of auditory to visual substitution systems were targeted in this research: the investigation of audiovisual correspondences and the extraction of auditory features. An audiovisual experiment was conducted online to find the associations between the auditory (pitch and timbre) and visual (shape, color, height) features. One hundred and nineteen subjects took part in the experiments. A strong association between timbre of envelope normalized sounds and visual shapes was observed. Subjects strongly associated soft timbres with blue, green or light gray rounded shapes, harsh timbres with red, yellow or dark gray sharp angular shapes and timbres having elements of softness and harshness together with a mixture of the previous two shapes. Fundamental frequency was not associated with height, grayscale or color. Given the correspondence between timbre and shapes, in the next step, a flexible and multipurpose bio-inspired hierarchical model for analyzing timbre and extracting the important timbral features was developed. Inspired by findings in the fields of neuroscience, computational neuroscience, and psychoacoustics, not only does the model extract spectral and temporal characteristics of a signal, but it also analyzes amplitude modulations on different timescales. It uses a cochlear filter bank to resolve the spectral components of a sound, lateral inhibition to enhance spectral resolution, and a modulation filter bank to extract the global temporal envelope and roughness of the sound from amplitude modulations. To demonstrate its potential for timbre representation, the model was successfully evaluated in three applications: 1) comparison with subjective values of roughness, 2) musical instrument classification, and 3) feature selection for labeled timbres. The correspondence between timbre and shapes revealed by this study and the proposed model for timbre analysis can be used to develop intuitive auditory to visual substitution systems that encode timbre into visual shapes.

Styles APA, Harvard, Vancouver, ISO, etc.

29

Binet, Karine. « Mise en oeuvre d'un système d'aide à la détection de cibles terrestres camouflées ». Rennes 1, 2005. http://www.theses.fr/2005REN1S085.

Texte intégral

Résumé :

L'innovation technologique offre de nouvelles perspectives à la surveillance en continu du champ de bataille. Dans ce contexte, notre effort de recherche a porté sur la réalisation d'un système d'aide à la DRI (Détection Reconnaissance Identification) des cibles terrestres camouflées, et plus spécifiquement sur l'étape de détection. L'absence de connaissance à priori et les contraintes de contre-mesures considérées (camouflage) nous ont amené à émettre l'hypothèse selon laquelle le camouflage provoquerait une déformation locale de la texture environnante. Un processus de segmentation régi par le calcul d'attributs de textures adaptés permet, dans un premier temps, d'obtenir une carte des textures dominantes de la scène, et dans un second temps, d'isoler les déformations au sein de chacune d'elle. Les résultats valident l'hypothèse initiale, mais des extensions, rendues possibles par la modularité de notre système, peuvent augmenter le taux de détection.

Styles APA, Harvard, Vancouver, ISO, etc.

30

Krapac, Josip. « Représentations d'images pour la recherche et la classification d'images ». Phd thesis, Université de Caen, 2011. http://tel.archives-ouvertes.fr/tel-00650998.

Texte intégral

Résumé :

Cette thèse se concerne avec de tâches de la recherche et la classification d'images. Ces tâches sont résolues par l'apprentissage des modèles statistiques donnée une représentation du contenu visuel de l'image et une mesure de ressemblance entre les images. Ici nous visons à améliorer les performances du tâches en étendant le sac-de-mots représentation de l'image, tout en utilisant modèles statistiques et des mesures de similarité entre les images déjà existants. Nous adaptons la représentation d'image en fonction d'une tâche donnée. Nous avons d'abord explorer la tâche de reclassement d'images, en contexte de la recherche d'images, dont le but est de trier les images récupérées par une requête textuelle afin que les images pertinentes pour ce requête sont classés au-dessus les autres images. Inspiré par le méthodes de reclassement de documents textuelles nous avons développé une représentation qui dépend du contenu visuel de l'image, mais également sur la requête textuelle utilisée pour récupérer l'image. Ensuite, nous adaptons la représentation pour la tâche de classification d'images, qui vise à attribuer une ou plusieurs étiquettes d'une image liée à la contenu visuel de l'image. Nous avons adaptée de la représentation en apprenant un vocabulaire visuel, spécifiquement pour la tâche de classification. Nous avons également introduit une nouvelle représentation qui encode les informations sur la disposition spatiale des parties d'image, de manière beaucoup plus compacte que les représentations actuellement utilisés pour codage de l'agencement spatial. Toutes les représentations développées sont compacts, rapides à construire et obtient bons résultats en utilisent des modèles linéaires. Nous montrons des améliorations sur plusieurs bases des images complexes en comparaison avec des méthodes de l'état de l'art. Pour les tâches de recherche et classification d'images nous avons montré que l'adaptation de la représentation à la tâche améliore les performances.

Styles APA, Harvard, Vancouver, ISO, etc.

31

Carlo, Diego Di. « Echo-aware signal processing for audio scene analysis ». Thesis, Rennes 1, 2020. http://www.theses.fr/2020REN1S075.

Texte intégral

Résumé :

La plupart des méthodes de traitement du signal audio considèrent la réverbération et en particulier les échos acoustiques comme une nuisance. Cependant, ceux-ci transmettent des informations spatiales et sémantiques importantes sur les sources sonores et des méthodes essayant de les prendre en compte ont donc récemment émergé.. Dans ce travail, nous nous concentrons sur deux directions. Tout d’abord, nous étudions la manière d’estimer les échos acoustiques à l’aveugle à partir d’enregistrements microphoniques. Deux approches sont proposées, l’une s’appuyant sur le cadre des dictionnaires continus, l’autre sur des techniques récentes d’apprentissage profond. Ensuite, nous nous concentrons sur l’extension de méthodes existantes d’analyse de scènes audio à leurs formes sensibles à l’écho. Le cadre NMF multicanal pour la séparation de sources audio, la méthode de localisation SRP-PHAT et le formateur de voies MVDR pour l’amélioration de la parole sont tous étendus pour prendre en compte les échos. Ces applications montrent comment un simple modèle d’écho peut conduire à une amélioration des performances
Most of audio signal processing methods regard reverberation and in particular acoustic echoes as a nuisance. However, they convey important spatial and semantic information about sound sources and, based on this, recent echo-aware methods have been proposed. In this work we focus on two directions. First, we study the how to estimate acoustic echoes blindly from microphone recordings. Two approaches are proposed, one leveraging on continuous dictionaries, one using recent deep learning techniques. Then, we focus on extending existing methods in audio scene analysis to their echo-aware forms. The Multichannel NMF framework for audio source separation, the SRP-PHAT localization method, and the MVDR beamformer for speech enhancement are all extended to their echo-aware versions

Styles APA, Harvard, Vancouver, ISO, etc.

32

Gebhardt, Lars. « „… eine Abgeburt, welche aus gräulichem Inceste entsteht …“ ». Saechsische Landesbibliothek- Staats- und Universitaetsbibliothek Dresden, 2009. http://nbn-resolving.de/urn:nbn:de:bsz:14-qucosa-23515.

Texte intégral

Styles APA, Harvard, Vancouver, ISO, etc.

33

Lu, Yanyun. « Online classification and clustering of persons using appearance-based features from video images : application to person discovery and re-identification in multicamera environments ». Thesis, Lille 1, 2014. http://www.theses.fr/2014LIL10119/document.

Texte intégral

Résumé :

De nos jours, la vidéo-surveillance est une thématique pour laquelle se pose le problème du traitement de données de masse pour la reconnaissance et le suivi de personnes. L’objectif est de créer un système de reconnaissance automatique de personnes basée sur l’apparence en environnement réel. Deux différentes tâches sont visées : ré-identification et découverte de nouvelles personnes. Le système proposé se divise en quatre modules : acquisition des données, extraction du fond et de la silhouette, extraction et sélection des attributs basées sur l’apparence et reconnaissance. Pour l’évaluation du système, en sus d’une base de données publique (CASIA), une nouvelle base de données a été créée avec de très faibles contraintes sur le scénario. Des attributs couleurs normalisés et les attributs de textures d’Haralick sont extraits, puis des algorithmes de sélection d’attributs sont comparés. Ces sous-ensembles d’attributs optimaux sont utilisés tout d’abord pour la ré-identification de personnes à l’aide de SVM incrémental et décrémental (MID-SVM), ayant l’avantage de ne nécessiter que peu de données pour la création du modèle. Une seconde utilisation de ces données se fait pour ajouter la découverte de nouvelles personnes inconnues jusqu’alors, en utilisant un algorithme de regroupement (Self-Adaptive Kernel Machine – SAKM) capable de différentier des personnes existantes qui peuvent être classifiées de nouvelles personnes pour lesquelles un modèle est créé. Le système proposé est capable de ré-identifier des personnes avec un taux de succès supérieur à 95% et atteint des performances satisfaisantes pour la découverte de nouvelles personnes avec un taux de plus de 90%
Video surveillance is nowadays an important topic to address, as it is broadly used for security and it brings problems related to big data processing. A part of it is identification and re-identification of persons in multicamera environments. The objective of this thesis work is to design a complete automatic appearance-based human recognition system working in real-life environment, with the goal to achieve two main tasks: person re-identification and new person discovery. The proposed system consists of four modules: video data acquisition; background extraction and silhouette extraction; feature extraction and selection; and person recognition. For evaluation purposes, in addition to the public available CASIA Database, a more challenging new database has been created under low constraints. Grey-world normalized color features and Haralick texture features are extracted as initial feature subset, then features selection approaches are tested and compared. These optimized subsets of features are then used firstly for person re-identification using Multi-category Incremental and Decremental SVM (MID-SVM) algorithm with the advantage of training only with few initial images and secondly for person discovery and classification using Self-Adaptive Kernel Machine (SAKM) algorithm able to differentiate existing persons who can be classified from new persons who have to be learned and added. The proposed system succeed in person re-identification with classification rate of over 95\% and achieved satisfying performances on person discovery with accuracy rate of over 90%

Styles APA, Harvard, Vancouver, ISO, etc.

34

Nesvadba, Jan. « Segmentation sémantique des contenus audio-visuels ». Bordeaux 1, 2007. http://www.theses.fr/2007BOR13456.

Texte intégral

Résumé :

Dans ce travail, nous avons mis au point une méthode de segmentation des contenus audiovisuels applicable aux appareils de stockage domestiques pour cela nous avons expérimenté un système distribué pour l'analyse du contenu composé de modules individuels d'analyse : les service unit. L'un entre eux a été dédié à la caractérisation des éléments hors contenu, i. E. Les publicités, et offre de bonnes perfermances. Parallélement, nous avons testé différents détecteurs de changement de plans afin de retenir le meilleur d'ente eux pour la suite. Puis, nous avons proposé une étude des règles de production des films, i. E. Grammaire de films, qui a permis de définir les séquences de parallel shot. Nous avons, ainsi, testé quatre méthodes de regroupement basées similarité afin de retenir la meilleure d'entre elles pour la suite. Finalement, nous avons recherché différentes méthodes de détection des frontières de scènes et avons obtenu les meilleurs résultats en combinant une méthode basée couleur avec un critère de longueur de plan. Ce dernier offre des performances justifiant son intégration dans les appareils de stockage grand public.

Styles APA, Harvard, Vancouver, ISO, etc.

35

Essid, Slim. « Classification automatique des signaux audio-fréquences : reconnaissance des instruments de musique ». Phd thesis, Université Pierre et Marie Curie - Paris VI, 2005. http://pastel.archives-ouvertes.fr/pastel-00002738.

Texte intégral

Résumé :

L'objet de cette thèse est de contribuer à améliorer l'identification automatique des instruments de musique dans des contextes réalistes, (sur des solos de musique, mais également sur des pièces multi-instrumentales). Nous abordons le problème suivant une approche de classification automatique en nous efforçant de rechercher des réalisations performantes des différents modules constituant le système que nous proposons. Nous adoptons un schéma de classification hiérarchique basé sur des taxonomies des instruments et des mélanges d'instruments. Ces taxonomies sont inférées au moyen d'un algorithme de clustering hiérarchique exploitant des distances probabilistes robustes qui sont calculées en utilisant une méthode à noyau. Le système exploite un nouvel algorithme de sélection automatique des attributs pour produire une description efficace des signaux audio qui, associée à des machines à vecteurs supports, permet d'atteindre des taux de reconnaissance élevés sur des pièces sonores reflétant la diversité de la pratique musicale et des conditions d'enregistrement rencontrées dans le monde réel. Notre architecture parvient ainsi à identifier jusqu'à quatre instruments joués simultanément, à partir d'extraits de jazz incluant des percussions.

Styles APA, Harvard, Vancouver, ISO, etc.

36

Mousse, Ange Mikaël. « Reconnaissance d'activités humaines à partir de séquences multi-caméras : application à la détection de chute de personne ». Thesis, Littoral, 2016. http://www.theses.fr/2016DUNK0453/document.

Texte intégral

Résumé :

La vision artificielle est un domaine de recherche en pleine évolution. Les nouvelles stratégies permettent d'avoir des réseaux de caméras intelligentes. Cela induit le développement de beaucoup d'applications de surveillance automatique via les caméras. Les travaux développés dans cette thèse concernent la mise en place d'un système de vidéosurveillance intelligente pour la détection de chutes en temps réel. La première partie de nos travaux consiste à pouvoir estimer de façon robuste la surface d'une personne à partir de deux (02) caméras ayant des vues complémentaires. Cette estimation est issue de la détection de chaque caméra. Dans l'optique d'avoir une détection robuste, nous avons fait recours à deux approches. La première approche consiste à combiner un algorithme de détection de mouvements basé sur la modélisation de l'arrière plan avec un algorithme de détection de contours. Une approche de fusion a été proposée pour rendre beaucoup plus efficiente le résultat de la détection. La seconde approche est basée sur les régions homogènes de l'image. Une première ségmentation est effectuée dans le but de déterminer les régions homogènes de l'image. Et pour finir, nous faisons la modélisation de l'arrière plan en se basant sur les régions. Une fois les pixels de premier plan obtenu, nous faisons une approximation par un polygone dans le but de réduire le nombre d'informations à manipuler. Pour l'estimation de cette surface nous avons proposé une stratégie de fusion dans le but d'agréger les détections des caméras. Cette stratégie conduit à déterminer l'intersection de la projection des divers polygones dans le plan de masse. La projection est basée sur les principes de l'homographie planaire. Une fois l'estimation obtenue, nous avons proposé une stratégie pour détecter les chutes de personnes. Notre approche permet aussi d'avoir une information précise sur les différentes postures de l'individu. Les divers algorithmes proposés ont été implémentés et testés sur des banques de données publiques dans le but de juger l'efficacité des approches proposées par rapport aux approches existantes dans l'état de l'art. Les résultats obtenus et qui ont été détaillés dans le présent manuscrit montrent l'apport de nos algorithmes
Artificial vision is an involving field of research. The new strategies make it possible to have some autonomous networks of cameras. This leads to the development of many automatic surveillance applications using the cameras. The work developed in this thesis concerns the setting up of an intelligent video surveillance system for real-time people fall detection. The first part of our work consists of a robust estimation of the surface area of a person from two (02) cameras with complementary views. This estimation is based on the detection of each camera. In order to have a robust detection, we propose two approaches. The first approach consists in combining a motion detection algorithm based on the background modeling with an edge detection algorithm. A fusion approach has been proposed to make much more efficient the results of the detection. The second approach is based on the homogeneous regions of the image. A first segmentation is performed to find homogeneous regions of the image. And finally we model the background using obtained regions

Styles APA, Harvard, Vancouver, ISO, etc.

37

Benabbas, Yassine. « Analyse du comportement humain à partir de la vidéo en étudiant l'orientation du mouvement ». Phd thesis, Université des Sciences et Technologie de Lille - Lille I, 2012. http://tel.archives-ouvertes.fr/tel-00839699.

Texte intégral

Résumé :

La reconnaissance du comportement et la prédiction des activités des personnes depuis la vidéo sont des préoccupations majeures dans le domaine de la vision par ordinateur. L'objectif principal de mon travail de thèse est de proposer des algorithmes qui permettent d'analyser des objets en mouvement à partir de la vidéo pour extraire des comportements humains. Cette analyse est effectuée dans des environnements intérieurs ou extérieurs filmés par des simples webcams ou par des caméras plus sophistiquée. La scène analysée peut être de deux types en fonction du nombre de personnes présentes. On distingue les scènes de foule où le nombre de personnes est important. Dans ce type de scène, nous nous intéressons aux problèmes de la détection d'évènements de foule, à l'analyse des flux et à l'extraction des motifs de mouvement. Le deuxième type de scène se caractérise par la présence d'une seule personne à la fois dans le champ de la caméra. Elle est appelée scène individuelle. Nous y traitons le problème de reconnaissance d'actions humaines. Pour atteindre ces objectifs, nous proposons une approche basée sur trois niveaux d'analyse. Le premier est l'extraction des caractéristiques de bas niveau récupérés les images constituant un flux vidéo (ex. les zones en mouvement). Le deuxième construit des descripteurs pour l'analyse du comportement humain (ex. la direction et la vitesse de mouvement moyennes). Le niveau le plus haut se sert des descripteurs de l'étape intermédiaire afin de fournir aux utilisateurs des résultats concrets sur l'analyse du comportement humain (ex. telle personne marche, une autre court, etc.). Des expérimentations sur des benchmarks connus ont validé nos approches, avec un positionnement très intéressant par rapport à l'état de l'art.

Styles APA, Harvard, Vancouver, ISO, etc.

38

Singh, Praveer. « Processing high-resolution images through deep learning techniques ». Thesis, Paris Est, 2018. http://www.theses.fr/2018PESC1172.

Texte intégral

Résumé :

Dans cette thèse, nous discutons de quatre scénarios d’application différents qui peuvent être largement regroupés dans le cadre plus large de l’analyse et du traitement d’images à haute résolution à l’aide de techniques d’apprentissage approfondi. Les trois premiers chapitres portent sur le traitement des images de télédétection (RS) captées soit par avion, soit par satellite à des centaines de kilomètres de la Terre. Nous commençons par aborder un problème difficile lié à l’amélioration de la classification des scènes aériennes complexes par le biais d’un paradigme d’apprentissage profondément faiblement supervisé. Nous montrons comment en n’utilisant que les étiquettes de niveau d’image, nous pouvons localiser efficacement les régions les plus distinctives dans les scènes complexes et éliminer ainsi les ambiguïtés qui mènent à une meilleure performance de classification dans les scènes aériennes très complexes. Dans le deuxième chapitre, nous traiterons de l’affinement des étiquettes de segmentation des empreintes de pas des bâtiments dans les images aériennes. Pour ce faire, nous détectons d’abord les erreurs dans les masques de segmentation initiaux et corrigeons uniquement les pixels de segmentation où nous trouvons une forte probabilité d’erreurs. Les deux prochains chapitres de la thèse portent sur l’application des Réseaux Adversariatifs Génératifs. Dans le premier, nous construisons un modèle GAN nuageux efficace pour éliminer les couches minces de nuages dans l’imagerie Sentinel-2 en adoptant une perte de consistance cyclique. Ceci utilise une fonction de perte antagoniste pour mapper des images nuageuses avec des images non nuageuses d’une manière totalement non supervisée, où la perte cyclique aide à contraindre le réseau à produire une image sans nuage correspondant a` l’image nuageuse d’entrée et non à aucune image aléatoire dans le domaine cible. Enfin, le dernier chapitre traite d’un ensemble différent d’images `à haute résolution, ne provenant pas du domaine RS mais plutôt de l’application d’imagerie à gamme dynamique élevée (HDRI). Ce sont des images 32 bits qui capturent toute l’étendue de la luminance présente dans la scène. Notre objectif est de les quantifier en images LDR (Low Dynamic Range) de 8 bits afin qu’elles puissent être projetées efficacement sur nos écrans d’affichage normaux tout en conservant un contraste global et une qualité de perception similaires à ceux des images HDR. Nous adoptons un modèle GAN multi-échelle qui met l’accent à la fois sur les informations plus grossières et plus fines nécessaires aux images à haute résolution. Les sorties finales cartographiées par ton ont une haute qualité subjective sans artefacts perçus
In this thesis, we discuss four different application scenarios that can be broadly grouped under the larger umbrella of Analyzing and Processing high-resolution images using deep learning techniques. The first three chapters encompass processing remote-sensing (RS) images which are captured either from airplanes or satellites from hundreds of kilometers away from the Earth. We start by addressing a challenging problem related to improving the classification of complex aerial scenes through a deep weakly supervised learning paradigm. We showcase as to how by only using the image level labels we can effectively localize the most distinctive regions in complex scenes and thus remove ambiguities leading to enhanced classification performance in highly complex aerial scenes. In the second chapter, we deal with refining segmentation labels of Building footprints in aerial images. This we effectively perform by first detecting errors in the initial segmentation masks and correcting only those segmentation pixels where we find a high probability of errors. The next two chapters of the thesis are related to the application of Generative Adversarial Networks. In the first one, we build an effective Cloud-GAN model to remove thin films of clouds in Sentinel-2 imagery by adopting a cyclic consistency loss. This utilizes an adversarial lossfunction to map cloudy-images to non-cloudy images in a fully unsupervised fashion, where the cyclic-loss helps in constraining the network to output a cloud-free image corresponding to the input cloudy image and not any random image in the target domain. Finally, the last chapter addresses a different set of high-resolution images, not coming from the RS domain but instead from High Dynamic Range Imaging (HDRI) application. These are 32-bit imageswhich capture the full extent of luminance present in the scene. Our goal is to quantize them to 8-bit Low Dynamic Range (LDR) images so that they can be projected effectively on our normal display screens while keeping the overall contrast and perception quality similar to that found in HDR images. We adopt a Multi-scale GAN model that focuses on both coarser as well as finer-level information necessary for high-resolution images. The final tone-mapped outputs have a high subjective quality without any perceived artifacts

Styles APA, Harvard, Vancouver, ISO, etc.

39

Khlaifi, Hajer. « Preliminary study for detection and classiﬁcation of swallowing sound ». Thesis, Compiègne, 2019. http://www.theses.fr/2019COMP2485/document.

Texte intégral

Résumé :

Les maladies altérant le processus de la déglutition sont multiples, affectant la qualité de vie du patient et sa capacité de fonctionner en société. La nature exacte et la gravité des changements post/pré-traitement dépendent de la localisation de l’anomalie. Une réadaptation efficace de la déglutition, cliniquement parlant, dépend généralement de l’inclusion d’une évaluation vidéo-fluoroscopique de la déglutition du patient dans l’évaluation post-traitement des patients en risque de fausse route. La restriction de cette utilisation est due au fait qu’elle est très invasive, comme d’autres moyens disponibles, tels que la fibre optique endoscopique. Ces méthodes permettent d’observer le déroulement de la déglutition et d’identifier les lieux de dysfonctionnement, durant ce processus, avec une précision élevée. "Mieux vaut prévenir que guérir" est le principe de base de la médecine en général. C’est dans ce contexte que se situe ce travail de thèse pour la télésurveillance des malades et plus spécifiquement pour suivre l’évolution fonctionnelle du processus de la déglutition chez des personnes à risques dysphagiques, que ce soit à domicile ou bien en institution, en utilisant le minimum de capteurs non-invasifs. C’est pourquoi le principal signal traité dans ce travail est le son. La principale problématique du traitement du signal sonore est la détection automatique du signal utile du son, étape cruciale pour la classification automatique de sons durant la prise alimentaire, en vue de la surveillance automatique. L’étape de la détection du signal utile permet de réduire la complexité du système d’analyse sonore. Les algorithmes issus de l’état de l’art traitant la détection du son de la déglutition dans le bruit environnemental n’ont pas montré une bonne performance. D’où l’idée d’utiliser un seuil adaptatif sur le signal, résultant de la décomposition en ondelettes. Les problématiques liées à la classification des sons en général et des sons de la déglutition en particulier sont abordées dans ce travail avec une analyse hiérarchique, qui vise à identifier dans un premier temps les segments de sons de la déglutition, puis à le décomposer en trois sons caractéristiques, ce qui correspond parfaitement à la physiologie du processus. Le couplage est également abordé dans ce travail. L’implémentation en temps réel de l’algorithme de détection a été réalisée. Cependant, celle de l’algorithme de classification reste en perspective. Son utilisation en clinique est prévue
The diseases affecting and altering the swallowing process are multi-faceted, affecting the patient’s quality of life and ability to perform well in society. The exact nature and severity of the pre/post-treatment changes depend on the location of the anomaly. Effective swallowing rehabilitation, clinically depends on the inclusion of a video-fluoroscopic evaluation of the patient’s swallowing in the post-treatment evaluation. There are other available means such as endoscopic optical fibre. The drawback of these evaluation approaches is that they are very invasive. However, these methods make it possible to observe the swallowing process and identify areas of dysfunction during the process with high accuracy. "Prevention is better than cure" is the fundamental principle of medicine in general. In this context, this thesis focuses on remote monitoring of patients and more specifically monitoring the functional evolution of the swallowing process of people at risk of dysphagia, whether at home or in medical institutions, using the minimum number of non-invasive sensors. This has motivated the monitoring of the swallowing process based on the capturing only the acoustic signature of the process and modeling the process as a sequence of acoustic events occuring within a specific time frame. The main problem of such acoustic signal processing is the automatic detection of the relevent sound signals, a crucial step in the automatic classification of sounds during food intake for automatic monitoring. The detection of relevant signal reduces the complexity of the subsequent analysis and characterisation of a particular swallowing process. The-state-of-the-art algorithms processing the detection of the swallowing sounds as distinguished from environmental noise were not sufficiently accurate. Hence, the idea occured of using an adaptive threshold on the signal resulting from wavelet decomposition. The issues related to the classification of sounds in general and swallowing sounds in particular are addressed in this work with a hierarchical analysis that aims to first identify the swallowing sound segments and then to decompose them into three characteristic sounds, consistent with the physiology of the process. The coupling between detection and classification is also addressed in this work. The real-time implementation of the detection algorithm has been carried out. However, clinical use of the classification is discussed with a plan for its staged deployment subject to normal processes of clinical approval

Styles APA, Harvard, Vancouver, ISO, etc.

40

Becker, Udo J., Thilo Becker et Julia Gerlach. « Coûts externes de l’automobile Aperçu des estimations existantes dans l'Union européenne à 27 ». Technische Universität Dresden, 2012. https://tud.qucosa.de/id/qucosa%3A29088.

Texte intégral

Résumé :

Mobilität und Verkehr, insbesondere der Verkehr mit PKW, sind unverzichtbare Bestandteile des Lebens. PKW erbringen ohne Zweifel große private Nutzen. Daneben erzeugen PKW aber auch sog. externe Effekte: Kosten, die die Fahrenden eigentlich unbeteiligten Dritten aufbürden. Dies sind Kosten durch Lärm und Abgase, durch ungedeckte Unfallkosten, durch die entstehenden Klimaschäden, durch "up- and downstream" - Effekte und durch sonstige Umweltkosten. Diese Kosten werden nicht vom Nutzer getragen, sondern von anderen Menschen, anderen Ländern und anderen Generationen. Letztlich führt dies dazu, dass die Kosten der Autonutzung in der EU-27 zu niedrig sind. Damit erge-ben sich ökonomisch zwingend ineffiziente Wahlentscheidungen: PKW werden häufiger genutzt als bei effizienten Allokationen. Auch deshalb gibt es in unseren Städten so viel Stau, so hohe Abgas- und Lärmemissionen, so hohe Steuern für die Kompensation der Schäden und so hohe Krankenkassenbeiträge. In der Untersuchung wurden, basierend auf allen vorliegenden Studien sowie auf der Methodik des "handbooks" der EU-Kommission ("IMPACT") Schätzungen für die ungedeckten Kosten der 27 Mitgliedsländer der EU erarbeitet. Kostensätze für Lärm, Luftverschmutzung, Unfälle und up-downstream Effekte wurden analog zu den Studien von CE Delft, Infras and Fraunhofer (2011) übernommen. Die Methodik ist im Text beschrieben und entspricht dem Stand des Wissens; im Bereich der Klimaschäden wurde ein höherer Ansatz und eine Bandbreite (low scenario: 72 €/t CO2; high scenario: 252 €/t CO2) gewählt.

Styles APA, Harvard, Vancouver, ISO, etc.

41

Becker, Udo J., Thilo Becker et Julia Gerlach. « The True Costs of Automobility : External Costs of Cars Overview on existing estimates in EU-27 ». Technische Universität Dresden, 2012. https://tud.qucosa.de/id/qucosa%3A30084.

Texte intégral

Résumé :

Mobilität und Verkehr, insbesondere der Verkehr mit PKW, sind unverzichtbare Bestandteile des Lebens. PKW erbringen ohne Zweifel große private Nutzen. Daneben erzeugen PKW aber auch sog. externe Effekte: Kosten, die die Fahrenden eigentlich unbeteiligten Dritten aufbürden. Dies sind Kosten durch Lärm und Abgase, durch ungedeckte Unfallkosten, durch die entstehenden Klimaschäden, durch 'up- and downstream' - Effekte und durch sonstige Umweltkosten. Diese Kosten werden nicht vom Nutzer getragen, sondern von anderen Menschen, anderen Ländern und anderen Generationen. Letztlich führt dies dazu, dass die Kosten der Autonutzung in der EU-27 zu niedrig sind. Damit erge-ben sich ökonomisch zwingend ineffiziente Wahlentscheidungen: PKW werden häufiger genutzt als bei effizienten Allokationen. Auch deshalb gibt es in unseren Städten so viel Stau, so hohe Abgas- und Lärmemissionen, so hohe Steuern für die Kompensation der Schäden und so hohe Krankenkassenbeiträge. In der Untersuchung wurden, basierend auf allen vorliegenden Studien sowie auf der Methodik des „handbooks“ der EU-Kommission ('IMPACT') Schätzungen für die ungedeckten Kosten der 27 Mitgliedsländer der EU erarbeitet. Kostensätze für Lärm, Luftverschmutzung, Unfälle und up-/downstream Effekte wurden analog zu den Studien von CE Delft, Infras and Fraunhofer (2011) übernommen. Die Methodik ist im Text beschrieben und entspricht dem Stand des Wissens; im Bereich der Klimaschäden wurde ein höherer Ansatz und eine Bandbreite (low scenario: 72 €/t CO2; high scenario: 252 €/t CO2) gewählt.

Styles APA, Harvard, Vancouver, ISO, etc.

42

Becker, Udo J., Thilo Becker et Julia Gerlach. « Externe Autokosten in der EU-27 Überblick über existierende Studien ». Technische Universität Dresden, 2012. https://tud.qucosa.de/id/qucosa%3A30128.

Texte intégral

Résumé :

Mobilität und Verkehr, insbesondere der Verkehr mit PKW, sind unverzichtbare Bestandteile des Lebens. PKW erbringen ohne Zweifel große private Nutzen. Daneben erzeugen PKW aber auch sog. externe Effekte: Kosten, die die Fahrenden eigentlich unbeteiligten Dritten aufbürden. Dies sind Kosten durch Lärm und Abgase, durch ungedeckte Unfallkosten, durch die entstehenden Klimaschäden, durch 'up- and downstream' - Effekte und durch sonstige Umweltkosten. Diese Kosten werden nicht vom Nutzer getragen, sondern von anderen Menschen, anderen Ländern und anderen Generationen. Letztlich führt dies dazu, dass die Kosten der Autonutzung in der EU-27 zu niedrig sind. Damit erge-ben sich ökonomisch zwingend ineffiziente Wahlentscheidungen: PKW werden häufiger genutzt als bei effizienten Allokationen. Auch deshalb gibt es in unseren Städten so viel Stau, so hohe Abgas- und Lärmemissionen, so hohe Steuern für die Kompensation der Schäden und so hohe Krankenkassenbeiträge. In der Untersuchung wurden, basierend auf allen vorliegenden Studien sowie auf der Methodik des 'handbooks' der EU-Kommission ('IMPACT') Schätzungen für die ungedeckten Kosten der 27 Mitgliedsländer der EU erarbeitet. Kostensätze für Lärm, Luftverschmutzung, Unfälle und up-/downstream Effekte wurden analog zu den Studien von CE Delft, Infras and Fraunhofer (2011) übernommen. Die Methodik ist im Text beschrieben und entspricht dem Stand des Wissens; im Bereich der Klimaschäden wurde ein höherer Ansatz und eine Bandbreite (low scenario: 72 €/t CO2; high scenario: 252 €/t CO2) gewählt.

Styles APA, Harvard, Vancouver, ISO, etc.

43

Fournier, Alexandre. « Détection et classification de changements sur des scènes urbaines en télédétection ». Phd thesis, 2008. http://tel.archives-ouvertes.fr/tel-00463593.

Texte intégral

Résumé :

Cette thèse aborde le problème de la détection de changements sur des images de scènes urbaines en télédétection. Les expériences ont été menées sur des couples d'images satellitaires panchromatiques haute résolution (< 1 m). À travers ce thème général, plusieurs problématiques, correspondant aux divers niveaux d'une chaîne de traitement, sont abordés, depuis la création d'un masque de changements jusqu'au raisonnement à un niveau objet. Dans ce manuscrit, nous abordons premièrement le problème de la détermination d'un masque de changements. Après avoir étudié les limites d'un algorithme de détection de changements, fondé sur l'analyse en composantes principales, nous proposons un algorithme tirant parti de l'invariance des lignes de niveau, fondé sur un modèle d'illumination et des hypothèses sur la régularité de la scène. Par la suite, nous abordons la classification des zones détectées comme changées au cours de l'étape précédente. D'abord, nous nous fondons uniquement sur les radiométries des couples de pixels. Enfin, nous étudions l'intérêt d'une composante géométrique dans la classification. Plus précisément, nous appliquons un algorithme d'approximation polygonale sur les zones connexes issues de la classification précédentes, puis nous classifions les formes obtenues compte tenu des orientations des côtés des polygones obtenus.

Styles APA, Harvard, Vancouver, ISO, etc.

44

Lacoste, Alexandre. « Apprentissage à base de gradient pour l'extraction de caractéristiques dans les signaux sonores complexes ». Thèse, 2006. http://hdl.handle.net/1866/17867.

Texte intégral

Styles APA, Harvard, Vancouver, ISO, etc.

45

Bergstra, James. « Algorithms for classifying recorded music by genre ». Thèse, 2006. http://hdl.handle.net/1866/16735.

Texte intégral

Styles APA, Harvard, Vancouver, ISO, etc.

Thèses sur le sujet « Classification de scènes sonores »

Créez une référence correcte selon les styles APA, MLA, Chicago, Harvard et plusieurs autres