Conecte-se

Bibliografias temáticas / Classification de scènes sonores

Literatura científica selecionada sobre o tema "Classification de scènes sonores"

Autor: Grafiati

Publicado: 25 de maio de 2024

Última modificação: 8 de junho de 2024

Crie uma referência precisa em APA, MLA, Chicago, Harvard, e outros estilos

Selecione um tipo de fonte:

Índice

Artigos de revistas
Teses / dissertações
Livros

Consulte a lista de atuais artigos, livros, teses, anais de congressos e outras fontes científicas relevantes para o tema "Classification de scènes sonores".

Ao lado de cada fonte na lista de referências, há um botão "Adicionar à bibliografia". Clique e geraremos automaticamente a citação bibliográfica do trabalho escolhido no estilo de citação de que você precisa: APA, MLA, Harvard, Chicago, Vancouver, etc.

Você também pode baixar o texto completo da publicação científica em formato .pdf e ler o resumo do trabalho online se estiver presente nos metadados.

Artigos de revistas sobre o assunto "Classification de scènes sonores"

1

Saraczynska, Maja. "Théâtre otobiographique*. Entendre le récit de soi sur les scènes au XXe siècle". Mnemosyne, n.º 3 (11 de outubro de 2018): 10. http://dx.doi.org/10.14428/mnemosyne.v0i3.12093.

Texto completo da fonte

Resumo:

À partir des théories d’Antonin Artaud, en passant par la mise en scène directe de Tadeusz Kantor et par le récit de soi d’Evguéni Grichkovets, jusqu’aux adaptations scéniques (Vis au long de la vie de Michèle Albo)… Autant d’exemples pour illustrer le phénomène paradoxal du théâtre autobiographique. Mon étude s’interrogera sur la place de l’oralité, de la voix du comédien et de l’ouïe du spectateur, de la musique et des effets sonores dans les spectacles réalisés à l’ère du théâtre visuel caractérisé par le rôle prépondérant de l’image. Je m’intéresserai à cet espace scénique particulier afin de démontrer l'impact des éléments sonores (voix, enregistrements, musique, sons, amplifications, figures de style, choralité, silence), sur la création d'un spectacle autobiographique, sur l’importance de la mémoire sensorielle (auditive), ainsi que sur le rôle que jouent des souvenirs sonores dans la reconstitution de l’histoire (personnelle et générale) sur scène.

Estilos ABNT, Harvard, Vancouver, APA, etc.

2

Corteel, Etienne. "Création et manipulation de scènes sonores pour la wave field synthesis". Cahier Louis-Lumière 2, n.º 1 (2004): 62–83. http://dx.doi.org/10.3406/cllum.2004.863.

Texto completo da fonte

Estilos ABNT, Harvard, Vancouver, APA, etc.

3

Larrue, Jean-Marc, e Marie-Madeleine Mervant-Roux. "Théâtre : le lieu où l’on entend". L’Annuaire théâtral, n.º 56-57 (30 de agosto de 2016): 17–45. http://dx.doi.org/10.7202/1037326ar.

Texto completo da fonte

Resumo:

Les deux auteurs proposent, dans cet article, une genèse des études sonores en théâtre dont l’émergence est toute récente, puisqu’elles n’ont pas dix ans. Ils précisent les défis auxquels elles ont été et sont confrontées, les objets qu’elles examinent. Après avoir défini l’auralité théâtrale et avancé certaines hypothèses sur l’« oubli » du son au sein des études théâtrales, les auteurs montrent comment la transformation des représentations (mentales et scientifiques) de l’ouïe et de l’espace aural, principalement depuis l’avènement des technologies de reproduction du son à la fin du XIXe siècle, s’est répercutée sur les scènes, renouvelant radicalement les pratiques scéniques des XXe et XXIe siècles.

Estilos ABNT, Harvard, Vancouver, APA, etc.

4

Magnat, Virginie. "Jean-Marc Larrue, Giusy Pisano and Jean-Paul Quéinnec (dirs), Dispositifs sonores: Corps, scènes, atmosphères". Theatre Research in Canada 43, n.º 1 (1 de abril de 2022): 146–49. http://dx.doi.org/10.3138/tric.43.1.b04.

Texto completo da fonte

Estilos ABNT, Harvard, Vancouver, APA, etc.

5

Chomienne, Loïc, Cédric Goulon, Gaëtan Parseihian e Lionel Bringoux. "Perception de la verticale en présence d’indices d’orientation visuels ou sonores : vers une dépendance allocentrée ?" Movement & Sport Sciences - Science & Motricité, n.º 108 (2020): 33–37. http://dx.doi.org/10.1051/sm/2019036.

Texto completo da fonte

Resumo:

L’étude de la perception de la verticale initiée par Witkin et Asch (1948) a abouti au concept de dépendance à l’égard du champ, distinguant les individus dans leur propension à être influencés par l’inclinaison d’un cadre visuel sur le jugement de la direction gravitaire (i.e., verticale subjective [VS]). Depuis, cette dépendance est souvent considérée comme révélatrice d’une sensibilité préférentielle aux informations visuelles par rapport à d’autres modalités sensorielles (e.g., vestibulaires ou somesthésiques). Ce travail pilote vise à reconsidérer la notion de dépendance à l’égard du champ dans la perception spatiale. Nous faisons l’hypothèse que des informations d’orientation issues d’un même cadre de référence centré sur l’environnement (i.e., référentiel allocentré) puissent conduire à une distinction comparable entre participants, quelle que soit la modalité sensorielle considérée. Face à deux scènes allocentrées (visuelle et sonore), 23 participants ont été testés sur une tâche d’ajustement de la VS. Nos résultats montrent une forte corrélation entre les ajustements dans les deux conditions sensorielles où la scène allocentrée était inclinée. Ceci suggère que les individus peuvent se différencier dans le traitement des informations spatiales issues d’un même cadre de référence, et ce de la même façon quelle que soit la modalité sensorielle permettant de relayer ces informations.

Estilos ABNT, Harvard, Vancouver, APA, etc.

6

Zaaboub, Wala, e Zouhour Ben Dhiaf. "Approche de détermination de signature de texture - application à la classification de couverts forestiers d'image satellitaire à haute résolution". Revue Française de Photogrammétrie et de Télédétection, n.º 207 (24 de setembro de 2014): 45–58. http://dx.doi.org/10.52638/rfpt.2014.209.

Texto completo da fonte

Resumo:

Cet article présente une approche d'identification de signature de texture pour la classification d'image satellite à haute résolution de scènes forestières. Nous cherchons la combinaison la plus adéquate d'attributs issus de mesures de texture. Cette combinaison d'attributs, qui forme notre signature, doit permettre la discrimination entre les différents types de textures présents dans l'image à classer. Nous améliorons notre signature par une étape de pondération des attributs. Le poids de chaque attribut traduit son degré de confiance. Nous terminons par une étape d'expérimentation consistant à appliquer notre signature combinée pondérée pour des fins de classification d'image satellite haute résolution de zones forestières.

Estilos ABNT, Harvard, Vancouver, APA, etc.

7

Jedrzejewski, Franck. "Nœuds Polychromes et Entrelacs Sonores : Vers de Nouvelles Catégories Musicales". Musicae Scientiae 7, n.º 1_suppl (setembro de 2003): 73–83. http://dx.doi.org/10.1177/10298649040070s104.

Texto completo da fonte

Resumo:

L'article présente deux applications de la théorie des nceuds et des entrelacs à l'univers musical. La première application est une classification des séries de douze sons selon des structures particulières appelées diagrammes de cordes. Cette taxinomie conduit à une nouvelle hiérarchie des structures profondes du lexique dodécaphonique. La chiralité et les degrés de symétrie des formes sérlelles sont directement accessibles sur ces diagrammes qui rŕsument les propriétés intrinsèques de la série, La forme schématique nodale remplit ainsi la double fonction d'integration méronymique et de contrôle combinatoire. La deuxlème application est une approche des problèmes du tempérament musical et de l'analyse des systèmes acoustiques contemporains par coloration des entrelacs. A chaque arc de la représentation planaire d'un nœud est associée une fréquence (appelée aussi couleur) du système acoustique envisagé. Lors du passage d'un arc à un autre par croisement des brins du nœud, la fréquence évolue selon les règles d'une grammaire prédéfinie, L'entrelacs ainsi étiqueté — appelé nœud polychrome — décnt complètement l'accord du système acoustique. Des questions théoriques comme la transposition des échelles tonales dans des univers nontempérés ou les variations micro-intervalliques dans Ie champ compositionnel s'etudient de manière naturelle à l'aide de ces nouvelles catégories musicales.

Estilos ABNT, Harvard, Vancouver, APA, etc.

8

KPEDENOU, Koffi Djagnikpo, e Zakariyao KOUMOI. "Cartographie et analyse spatiale de la dégradation des terres dans le sud-est du Togo : une approche basée sur la télédétection". Annales de l’Université de Parakou - Série Sciences Naturelles et Agronomie 9, n.º 1 (30 de junho de 2019): 67–78. http://dx.doi.org/10.56109/aup-sna.v9i1.64.

Texto completo da fonte

Resumo:

Le présent travail consiste en l’utilisation des techniques de télédétection afin de caractériser et d’évaluer la dégradation des terres dans le Sud-Est Togo. Le problème de dégradation des terres dans cette partie du Togo est dû à de fortes pressions d’origine humaine relevant des différentes activités économiques. L’approche adoptée relève de la géomatique basée sur le calcul des indices (végétation et sol) et l’analyse spatiale. A cet effet, à partir de deux scènes Landsat mosaïquées, des indices tels que le NDVI, le DVI, le MSAVI2, le TCT-B, le NDBI et le BSI ont été calculés, puis combinés. Une meilleure combinaison fut retenue et a permis la classification des images suivant l’intensité de dégradation des terres. La validation de la carte obtenue a été faite sur la base de la vérification terrain et des études antérieures sur la thématique dans le secteur. Les résultats obtenus ont révélé que les terres fortement dégradées représentent 54,9 % de l’ensemble des terres contre 41 % pour les terres modérément dégradées. La faible dégradation quant à elle, ne concerne que 4,1 % des terres dans le secteur d’étude. La répartition par unité administrative a montré que les terres les plus dégradées sont localisées essentiellement dans la préfecture de Vo. L’évaluation qualitative des résultats a montré l’atout de ces indicateurs spectraux à discriminer les différents niveaux de dégradation des terres dans le secteur d’étude. L’étude permet ainsi d’apprécier l’étendue du phénomène dans le souci de conservation des terres dans un espace fortement anthropisé.

Estilos ABNT, Harvard, Vancouver, APA, etc.

9

Araújo, Alan Nunes, e Wanessa Pinheiro Prates. "MODELAGEM MATEMÁTICO-ESPACIAL NA IDENTIFICAÇÃO DE FRAGILIDADES AMBIENTAIS DA MICROBACIA DO RIO JARUCU, MUNICÍPIO DE BRASIL NOVO – PA". InterEspaço: Revista de Geografia e Interdisciplinaridade 4, n.º 12 (22 de março de 2018): 207. http://dx.doi.org/10.18764/2446-6549.v4n12p207-226.

Texto completo da fonte

Resumo:

IDENTIFICATION OF ENVIRONMENTAL FRAGILITIES IN THE MICROBACY OF JARUCU RIVER, MUNICIPALITY OF BRAZIL NOVO – PAIDENTIFICATION DES FAIBLESSES DANS L'ENVIRONNEMENT JARUCU RIVIÈRE, BRESIL NEW COUNTY – PAO objetivo deste trabalho é avaliar a fragilidade ambiental da microbacia Hidrográfica do rio Jarucu, localizada no município de Brasil Novo, no Pará, a partir de uma visão sistêmica, oriunda de modelagens matemático-espaciais, para melhor análise da gestão de seus recursos naturais. Para a sua realização, utilizou-se a metodologia de álgebra de mapas proposta por Ross (1994), por intermédio da sobreposição de camadas, atribuindo-se a elas, notas e pesos, utilizando-se, como plataforma, o software ArcGIS 10.1, gerando mapa síntese a partir de multicritérios. Para esse fim, foram utilizados mapas de declividades, solos, proximidade de drenagens e nascentes, além do uso e cobertura do solo, mediante classificação orientada a objeto, utilizando-se o software eCoguinition 9.01, bem como cenas do sensor RapidEye, disponível no site do Ministério do Meio Ambiente (resolução espacial de 5 metros). Os resultados demonstram que a bacia apresenta fragilidade entre baixa e média, devido a índices moderados de declividade e solos estáveis quando se tem a presença da vegetação. As regiões com fragilidade localizam-se nas Áreas de Preservação Permanente de Cursos d’água, devido à declividade acentuada nesses pontos e à falta de cobertura vegetal, gerada pela substituição de áreas de floresta por pastagens, muitas destas degradadas, um padrão comum no processo de ocupação da região da Transamazônica, acarretando, em se tratando de uma bacia hidrográfica, um processo de lixiviação e assoreamento dos cursos d’água, mesmo que ainda incipiente.Palavras-chave: Fragilidade Ambiental; Modelagens Espaciais; Rio Jarucu, Brasil Novo.ABSTRACTThe objective of this work was to evaluate the environmental fragility of the hydrographic microbasin Of the Jarucu River located in the municipality of Brasil Novo in Pará from a systemic view derived from mathematical-spatial modeling, to better analyze the management of its natural resources. In order to achieve it, it was used the methodology of map algebra proposed by Ross (1994) by overlapping layers and assigning them grades and weights, using as Platform ArcGIS 10.1 software, generating synthesis map from multicriteria. To this end, besides the ground cover through object-oriented classification using the eCoguinition software 9.01 and scenes of the RapidEye sensor available on the Ministry of Environment website (resolution Space of 5 meters), Maps of Slopes, Soils, proximity to drains and springs were used. The results showed that the basin presents its fragility between low and avarsge due to moderate rates of slope and stable soils when there is vegetation. The regions where they showed the greatest fragility are located in the Permanent Preservation water course areas due to the marked slope in these points and the lack of vegetation coverage, generated by the replacement of forest areas by pastures, many of these degraded, what is a common pattern in the process of occupation of the Transamazonica region, leading to, when it comes to a river basin, a process of leaching and sedimentation of watercourses, even if still incipient.Keywords: Environmental Fragility; Spatial Modeling; Jarucu River, Brasil NovoRÉSUMÉRésumé: L'objectif de ce travail était d'évaluer la fragilité environnementale de la micro-puce hydrographique de la rivière Jarucu située dans la municipalité de Brasil Novo à Pará à partir d'une vue systémique dérivée de la modélisation mathématique et spatiale afin de mieux analyser la gestion de ses ressources naturelles. Pour sa réalisation, la méthodologie de l'algèbre de carte proposée par Ross (1994) à travers le chevauchement des couches et leur attribuant des notes et des poids, en utilisant comme plate-forme le logiciel ArcGIS 10.1, générant une carte de synthèse multicritère. À cette fin, des cartes des pentes, des sols, de la proximité du drainage et des sources ont été utilisées, ainsi que l'utilisation et la couverture des terres grâce à une classification orientée objet à l'aide du logiciel eCoguinition 9.01 et des scènes du capteur RapidEye disponibles sur le site Web du ministère de l'Environnement Espace de 5 mètres). Les résultats ont montré que le bassin présente une fragilité entre le bas et le moyen, en raison des indices modérés de pente et des sols stables lorsque la végétation est présente. Les régions où elles sont les plus fragiles sont situées dans les zones de conservation permanentes des cours d'eau en raison de la pente marquée de ces points et de l'absence de couverture végétale générée par le remplacement des zones forestières par les pâturages, dont beaucoup sont dégradés, un modèle commun dans le processus de Occupation de la région de Transamazonica, conduisant à un processus de lixiviation et de sédimentation des cours d'eau, même si elle était encore incipiente.Mots-clés: Fragilité de L'environnement; L'espace de Modélisation; Rivière Jarucu, Brésil Nouveau.

Estilos ABNT, Harvard, Vancouver, APA, etc.

10

CARPENTIER, Thibaut. "Spatialisation sonore - Perception, captation et diffusion de scènes sonores". Bruit et vibrations, novembro de 2022. http://dx.doi.org/10.51257/a-v1-br1150.

Texto completo da fonte

Estilos ABNT, Harvard, Vancouver, APA, etc.

Teses / dissertações sobre o assunto "Classification de scènes sonores"

1

Bisot, Victor. "Apprentissage de représentations pour l'analyse de scènes sonores". Electronic Thesis or Diss., Paris, ENST, 2018. http://www.theses.fr/2018ENST0016.

Texto completo da fonte

Resumo:

Ce travail de thèse s’intéresse au problème de l’analyse des sons environnementaux avec pour objectif d’extraire automatiquement de l’information sur le contexte dans lequel un son a été enregistré. Ce domaine de recherche a connu un succès grandissant ces dernières années entraînant une rapide évolution du nombre de travaux et des méthodes employées. Nos travaux explorent et contribuent à plusieurs grandes familles d’approches pour l’analyse de scènes et événements sonores allant de l’ingénierie de descripteurs jusqu’aux réseaux de neurones profonds. Notre travail se focalise sur les techniques d’apprentissage de représentations par factorisation en matrices positives (NMF), qui sont particulièrement adaptées à l’analyse d’environnements multi-sources tels que les scènes sonores. Nous commençons par montrer que les spectrogrammes contiennent suffisamment d’information pour discriminer les scènes sonores en proposant une combinaison de descripteurs d’images extraits à partir des images temps-fréquence. Nous quittons ensuite le monde de l’ingénierie de descripteurs pour aller vers un apprentissage automatique des représentations. Nous entamons cette partie du travail en nous intéressant aux approches non-supervisées, en particulier à l’apprentissage de descripteurs par différentes variantes de la NMF. Plusieurs des approches proposées confirment l’intérêt de l’apprentissage de caractéristiques par NMF en obtenant des performances supérieures aux meilleures approches par extraction de descripteurs. Nous proposons ensuite d’améliorer les représentations apprises en introduisant le modèle TNMF, une variante supervisée de la NMF. Les modèles et algorithmes TNMF proposés se basent sur un apprentissage conjoint du classifieur et du dictionnaire de sorte à minimiser un coût de classification. Dans une dernière partie, nous discutons des liens de compatibilité entre la NMF et certaines approches par réseaux de neurones profonds. Nous proposons et adaptons des architectures de réseaux de neurones à l’utilisation de la NMF. Les modèles introduits nous permettent d’atteindre des performances état de l’art sur des tâches de classification de scènes et de détection d’événements sonores. Enfin nous explorons la possibilité d’entraîner conjointement la NMF et les paramètres du réseau, regroupant ainsi les différentes étapes de nos systèmes en un seul problème d’optimisation
This thesis work focuses on the computational analysis of environmental sound scenes and events. The objective of such tasks is to automatically extract information about the context in which a sound has been recorded. The interest for this area of research has been rapidly increasing in the last few years leading to a constant growth in the number of works and proposed approaches. We explore and contribute to the main families of approaches to sound scene and event analysis, going from feature engineering to deep learning. Our work is centered at representation learning techniques based on nonnegative matrix factorization, which are particularly suited to analyse multi-source environments such as acoustic scenes. As a first approach, we propose a combination of image processing features with the goal of confirming that spectrograms contain enough information to discriminate sound scenes and events. From there, we leave the world of feature engineering to go towards automatically learning the features. The first step we take in that direction is to study the usefulness of matrix factorization for unsupervised feature learning techniques, especially by relying on variants of NMF. Several of the compared approaches allow us indeed to outperform feature engineering approaches to such tasks. Next, we propose to improve the learned representations by introducing the TNMF model, a supervised variant of NMF. The proposed TNMF models and algorithms are based on jointly learning nonnegative dictionaries and classifiers by minimising a target classification cost. The last part of our work highlights the links and the compatibility between NMF and certain deep neural network systems by proposing and adapting neural network architectures to the use of NMF as an input representation. The proposed models allow us to get state of the art performance on scene classification and overlapping event detection tasks. Finally we explore the possibility of jointly learning NMF and neural networks parameters, grouping the different stages of our systems in one optimisation problem

Estilos ABNT, Harvard, Vancouver, APA, etc.

2

Olvera, Zambrano Mauricio Michel. "Robust sound event detection". Electronic Thesis or Diss., Université de Lorraine, 2022. http://www.theses.fr/2022LORR0324.

Texto completo da fonte

Resumo:

De l'industrie aux applications d'intérêt général, l'analyse automatique des scènes et événements sonores permet d'interpréter le flux continu de sons quotidiens. Une des principales dégradations rencontrées lors du passage des conditions de laboratoire au monde réel est due au fait que les scènes sonores ne sont pas composées d'événements isolés mais de plusieurs événements simultanés. Des différences entre les conditions d'apprentissage et de test surviennent aussi souvent en raison de facteurs extrinsèques, tels que le choix du matériel d'enregistrement et des positions des microphones, et de facteurs intrinsèques aux événements sonores, tels que leur fréquence d'occurrence, leur durée et leur variabilité. Dans cette thèse, nous étudions des problèmes d'intérêt pratique pour les tâches d'analyse sonore afin d'atteindre la robustesse dans des scénarios réels.Premièrement, nous explorons la séparation des sons ambiants dans un scénario pratique dans lequel plusieurs événements sonores de courte durée avec des caractéristiques spectrales à variation rapide (c'est-à-dire des sons d'avant-plan) se produisent simultanément à des sons stationnaires d'arrière-plan. Nous introduisons la tâche de séparation du son d'avant-plan et d'arrière-plan et examinons si un réseau de neurones profond avec des informations auxiliaires sur les statistiques du son d'arrière-plan peut différencier les caractéristiques spectro-temporelles à variation rapide et lente. De plus, nous explorons l'usage de la normalisation de l'énergie par canal (PCEN) comme prétraitement et la capacité du modèle de séparation à généraliser à des classes sonores non vues à l'apprentissage. Les résultats sur les mélanges de sons isolés à partir des jeux de données DESED et Audioset démontrent la capacité de généralisation du système de séparation proposé, qui est principalement due à PCEN.Deuxièmement, nous étudions comment améliorer la robustesse des systèmes d'analyse sonore dans des conditions d'apprentissage et de test différentes. Nous explorons deux tâches distinctes~: la classification de scène sonore (ASC) avec des matériels d'enregistrement différents et l'apprentissage de systèmes de détection d'événements sonores (SED) avec des données synthétiques et réelles.Dans le contexte de l'ASC, sans présumer de la disponibilité d'enregistrements capturés simultanément par les matériels d'enregistrement d'apprentissage et de test, nous évaluons l'impact des stratégies de normalisation et d'appariement des moments et leur intégration avec l'adaptation de domaine antagoniste non supervisée. Nos résultats montrent les avantages et les limites de ces stratégies d'adaptation appliquées à différentes étapes du pipeline de classification. La meilleure stratégie atteint les performances du domaine source dans le domaine cible.Dans le cadre de la SED, nous proposons un prétraitement basé sur PCEN avec des paramètres appris. Ensuite, nous étudions l'apprentissage conjoint du système de SED et de branches de classification auxiliaires qui catégorisent les sons en avant-plan ou arrière-plan selon leurs propriétés spectrales. Nous évaluons également l'impact de l'alignement des distributions des données synthétiques et réelles au niveau de la trame ou du segment par transport optimal. Enfin, nous intégrons une stratégie d'apprentissage actif dans la procédure d'adaptation. Les résultats sur le jeu de données DESED indiquent que ces méthodes sont bénéfiques pour la tâche de SED et que leur combinaison améliore encore les performances sur les scènes sonores réelles
From industry to general interest applications, computational analysis of sound scenes and events allows us to interpret the continuous flow of everyday sounds. One of the main degradations encountered when moving from lab conditions to the real world is due to the fact that sound scenes are not composed of isolated events but of multiple simultaneous events. Differences between training and test conditions also often arise due to extrinsic factors such as the choice of recording hardware and microphone positions, as well as intrinsic factors of sound events, such as their frequency of occurrence, duration and variability. In this thesis, we investigate problems of practical interest for audio analysis tasks to achieve robustness in real scenarios.Firstly, we explore the separation of ambient sounds in a practical scenario in which multiple short duration sound events with fast varying spectral characteristics (i.e., foreground sounds) occur simultaneously with background stationary sounds. We introduce the foreground-background ambient sound separation task and investigate whether a deep neural network with auxiliary information about the statistics of the background sound can differentiate between rapidly- and slowly-varying spectro-temporal characteristics. Moreover, we explore the use of per-channel energy normalization (PCEN) as a suitable pre-processing and the ability of the separation model to generalize to unseen sound classes. Results on mixtures of isolated sounds from the DESED and Audioset datasets demonstrate the generalization capability of the proposed separation system, which is mainly due to PCEN.Secondly, we investigate how to improve the robustness of audio analysis systems under mismatched training and test conditions. We explore two distinct tasks: acoustic scene classification (ASC) with mismatched recording devices and training of sound event detection (SED) systems with synthetic and real data.In the context of ASC, without assuming the availability of recordings captured simultaneously by mismatched training and test recording devices, we assess the impact of moment normalization and matching strategies and their integration with unsupervised adversarial domain adaptation. Our results show the benefits and limitations of these adaptation strategies applied at different stages of the classification pipeline. The best strategy matches source domain performance in the target domain.In the context of SED, we propose a PCEN based acoustic front-end with learned parameters. Then, we study the joint training of SED with auxiliary classification branches that categorize sounds as foreground or background according to their spectral properties. We also assess the impact of aligning the distributions of synthetic and real data at the frame or segment level based on optimal transport. Finally, we integrate an active learning strategy in the adaptation procedure. Results on the DESED dataset indicate that these methods are beneficial for the SED task and that their combination further improves performance on real sound scenes

Estilos ABNT, Harvard, Vancouver, APA, etc.

3

Gontier, Félix. "Analyse et synthèse de scènes sonores urbaines par approches d'apprentissage profond". Thesis, Ecole centrale de Nantes, 2020. http://www.theses.fr/2020ECDN0042.

Texto completo da fonte

Resumo:

L'avènement de l'Internet des Objets (IoT) a permis le développement de réseaux de capteurs acoustiques à grande échelle, dans le but d'évaluer en continu les environnements sonores urbains. Dans l'approche de paysages sonores, les attributs perceptifs de qualité sonore sont liés à l'activité de sources, quantités d'importance pour mieux estimer la perception humaine des environnements sonores. Utilisées avec succès dans l'analyse de scènes sonores, les approches d'apprentissage profond sont particulièrement adaptées pour prédire ces quantités. Cependant, les annotations nécessaires au processus d'entraînement de modèles profonds ne peuvent pas être directement obtenues, en partie à cause des limitations dans l’information enregistrée par les capteurs nécessaires pour assurer le respect de la vie privée. Pour répondre à ce problème, une méthode pour l'annotation automatique de l'activité des sources d'intérêt sur des scènes sonores simulées est proposée. Sur des données simulées, les modèles d'apprentissage profond développés atteignent des performances « état de l'art » pour l'estimation d'attributs perceptifs liés aux sources, ainsi que de l'agrément sonore. Des techniques d'apprentissage par transfert semisupervisé sont alors étudiées pour favoriser l'adaptabilité des modèles appris, en exploitant l'information contenue dans les grandes quantités de données enregistrées par les capteurs. Les évaluations sur des enregistrements réalisés in situ et annotés montrent qu'apprendre des représentations latentes des signaux audio compense en partie les défauts de validité écologique des scènes sonores simulées. Dans une seconde partie, l'utilisation de méthodes d'apprentissage profond est considérée pour la resynthèse de signaux temporels à partir de mesures capteur, sous contrainte de respect de la vie privée. Deux approches convolutionnelles sont développées et évaluées par rapport à des méthodes état de l'art pour la synthèse de parole
The advent of the Internet of Things (IoT) has enabled the development of largescale acoustic sensor networks to continuously monitor sound environments in urban areas. In the soundscape approach, perceptual quality attributes are associated with the activity of sound sources, quantities of importance to better account for the human perception of its acoustic environment. With recent success in acoustic scene analysis, deep learning approaches are uniquely suited to predict these quantities. Though, annotations necessary to the training process of supervised deep learning models are not easily obtainable, partly due to the fact that the information content of sensor measurements is limited by privacy constraints. To address this issue, a method is proposed for the automatic annotation of perceived source activity in large datasets of simulated acoustic scenes. On simulated data, trained deep learning models achieve state-of-the-art performances in the estimation of sourcespecific perceptual attributes and sound pleasantness. Semi-supervised transfer learning techniques are further studied to improve the adaptability of trained models by exploiting knowledge from the large amounts of unlabelled sensor data. Evaluations on annotated in situ recordings show that learning latent audio representations of sensor measurements compensates for the limited ecological validity of simulated sound scenes. In a second part, the use of deep learning methods for the synthesis of time domain signals from privacy-aware sensor measurements is investigated. Two spectral convolutional approaches are developed and evaluated against state-of-the-art methods designed for speech synthesis

Estilos ABNT, Harvard, Vancouver, APA, etc.

4

Lafay, Grégoire. "Simulation de scènes sonores environnementales : Application à l’analyse sensorielle et l’analyse automatique". Thesis, Ecole centrale de Nantes, 2016. http://www.theses.fr/2016ECDN0007/document.

Texto completo da fonte

Resumo:

La présente thèse traite de l'analyse de scènes extraites d'environnements sonores, résultat auditif du mélange de sources émettrices distinctes et concomitantes. Ouvrant le champ des sources et des recherches possibles au-delà des domaines plus spécifiques que sont la parole ou la musique, l'environnement sonore est un objet complexe. Son analyse, le processus par lequel le sujet lui donne sens, porte à la fois sur les données perçues et sur le contexte de perception de ces données.Tant dans le domaine de la perception que de l'apprentissage machine, toute expérience suppose un contrôle fin de l'expérimentateur sur les stimuli proposés. Néanmoins, la nature de l'environnement sonore nécessite de se placer dans un cadre écologique, c'est à dire de recourir à des données réelles, enregistrées, plutôt qu'à des stimuli de synthèse. Conscient de cette problématique, nous proposons un modèle permettant de simuler, à partir d'enregistrements de sons isolés, des scènes sonores dont nous maîtrisons les propriétés structurelles -- intensité, densité et diversité des sources. Appuyé sur les connaissances disponibles sur le système auditif humain, le modèle envisage la scène sonore comme un objet composite, une somme de sons sources.Nous investissons à l'aide de cet outil deux champs d'application. Le premier concerne la perception, et la notion d'agrément perçu dans des environnements urbains. L'usage de données simulées nous permet d'apprécier finement l'impact de chaque source sonore sur celui-ci. Le deuxième concerne la détection automatique d'événements sonores et propose une méthodologie d'évaluation des algorithmes mettant à l'épreuve leurs capacités de généralisation
This thesis deals with environmental scene analysis, the auditory result of mixing separate but concurrent emitting sources. The sound environment is a complex object, which opens the field of possible research beyond the specific areas that are speech or music. For a person to make sense of its sonic environment, the involved process relies on both the perceived data and its context. For each experiment, one must be, as much as possible,in control of the evaluated stimuli, whether the field of investigation is perception or machine learning. Nevertheless, the sound environment needs to be studied in an ecological framework, using real recordings of sounds as stimuli rather than synthetic pure tones. We therefore propose a model of sound scenes allowing us to simulate complex sound environments from isolated sound recordings. The high level structural properties of the simulated scenes -- such as the type of sources, their sound levels or the event density -- are set by the experimenter. Based on knowledge of the human auditory system, the model abstracts the sound environment as a composite object, a sum of soundsources. The usefulness of the proposed model is assessed on two areas of investigation. The first is related to the soundscape perception issue, where the model is used to propose an innovative experimental protocol to study pleasantness perception of urban soundscape. The second tackles the major issue of evaluation in machine listening, for which we consider simulated data in order to powerfully assess the generalization capacities of automatic sound event detection systems

Estilos ABNT, Harvard, Vancouver, APA, etc.

5

Moussallam, Manuel. "Représentations redondantes et hiérarchiques pour l'archivage et la compression de scènes sonores". Phd thesis, Télécom ParisTech, 2012. http://pastel.archives-ouvertes.fr/pastel-00834272.

Texto completo da fonte

Resumo:

L'objet de cette thèse est l'analyse et le traitement automatique de grands volumes de données audio. Plus particulièrement, on s'intéresse à l'archivage, tâche qui regroupe, au moins, deux problématiques: la compression des données, et l'indexation du contenu de celles-ci. Ces deux problématiques définissent chacune des objectifs, parfois concurrents, dont la prise en compte simultanée s'avère donc difficile. Au centre de cette thèse, il y a donc la volonté de construire un cadre cohérent à la fois pour la compression et pour l'indexation d'archives sonores. Les représentations parcimonieuses de signaux dans des dictionnaires redondants ont récemment montré leur capacité à remplir une telle fonction. Leurs propriétés ainsi que les méthodes et algorithmes permettant de les obtenir sont donc étudiés dans une première partie de cette thèse. Le cadre applicatif relativement contraignant (volume des données) va nous amener à choisir parmi ces derniers des algorithmes itératifs, appelés également gloutons. Une première contribution de cette thèse consiste en la proposition de variantes du célèbre Matching Pursuit basées sur un sous-échantillonnage aléatoire et dynamique de dictionnaires. L'adaptation au cas de dictionnaires temps-fréquence structurés (union de bases de cosinus locaux) nous permet d'espérer une amélioration significative des performances en compression de scènes sonores. Ces nouveaux algorithmes s'accompagnent d'une modélisation statistique originale des propriétés de convergence usant d'outils empruntés à la théorie des valeurs extrêmes. Les autres contributions de cette thèse s'attaquent au second membre du problème d'archivage: l'indexation. Le même cadre est cette fois-ci envisagé pour mettre à jour les différents niveaux de structuration des données. Au premier plan, la détection de redondances et répétitions. A grande échelle, un système robuste de détection de motifs récurrents dans un flux radiophonique par comparaison d'empreintes est proposé. Ses performances comparatives sur une campagne d'évaluation du projet QUAERO confirment la pertinence de cette approche. L'exploitation des structures pour un contexte autre que la compression est également envisagé. Nous proposons en particulier une application à la séparation de sources informée par la redondance pour illustrer la variété de traitements que le cadre choisi autorise. La synthèse des différents éléments permet alors d'envisager un système d'archivage répondant aux contraintes par la hiérarchisation des objectifs et des traitements.

Estilos ABNT, Harvard, Vancouver, APA, etc.

6

Moussallam, Manuel. "Représentations redondantes et hiérarchiques pour l'archivage et la compression de scènes sonores". Electronic Thesis or Diss., Paris, ENST, 2012. http://www.theses.fr/2012ENST0079.

Texto completo da fonte

Resumo:

L'objet de cette thèse est l'analyse et le traitement automatique de grands volumes de données audio. Plus particulièrement, on s'intéresse à l'archivage, tâche qui regroupe, au moins, deux problématiques: la compression des données, et l'indexation du contenu de celles-ci. Ces deux problématiques définissent chacune des objectifs, parfois concurrents, dont la prise en compte simultanée s'avère donc difficile. Au centre de cette thèse, il y a donc la volonté de construire un cadre cohérent à la fois pour la compression et pour l'indexation d'archives sonores. Les représentations parcimonieuses de signaux dans des dictionnaires redondants ont récemment montré leur capacité à remplir une telle fonction. Leurs propriétés ainsi que les méthodes et algorithmes permettant de les obtenir sont donc étudiés dans une première partie de cette thèse. Le cadre applicatif relativement contraignant (volume des données) va nous amener à choisir parmi ces derniers des algorithmes itératifs, appelés également gloutons. Une première contribution de cette thèse consiste en la proposition de variantes du célèbre Matching Pursuit basées sur un sous-échantillonnage aléatoire et dynamique de dictionnaires. L'adaptation au cas de dictionnaires temps-fréquence structurés (union de bases de cosinus locaux) nous permet d'espérer une amélioration significative des performances en compression de scènes sonores. Ces nouveaux algorithmes s'accompagnent d'une modélisation statistique originale des propriétés de convergence usant d'outils empruntés à la théorie des valeurs extrêmes. Les autres contributions de cette thèse s'attaquent au second membre du problème d'archivage: l'indexation. Le même cadre est cette fois-ci envisagé pour mettre à jour les différents niveaux de structuration des données. Au premier plan, la détection de redondances et répétitions. A grande échelle, un système robuste de détection de motifs récurrents dans un flux radiophonique par comparaison d'empreintes est proposé. Ses performances comparatives sur une campagne d'évaluation du projet QUAERO confirment la pertinence de cette approche. L'exploitation des structures pour un contexte autre que la compression est également envisagé. Nous proposons en particulier une application à la séparation de sources informée par la redondance pour illustrer la variété de traitements que le cadre choisi autorise. La synthèse des différents éléments permet alors d'envisager un système d'archivage répondant aux contraintes par la hiérarchisation des objectifs et des traitements
The main goal of this work is automated processing of large volumes of audio data. Most specifically, one is interested in archiving, a process that encompass at least two distinct problems: data compression and data indexing. Jointly addressing these problems is a difficult task since many of their objectives may be concurrent. Therefore, building a consistent framework for audio archival is the matter of this thesis. Sparse representations of signals in redundant dictionaries have recently been found of interest for many sub-problems of the archival task. Sparsity is a desirable property both for compression and for indexing. Methods and algorithms to build such representations are the first topic of this thesis. Given the dimensionality of the considered data, greedy algorithms will be particularly studied. A first contribution of this thesis is the proposal of a variant of the famous Matching Pursuit algorithm, that exploits randomness and sub-sampling of very large time frequency dictionaries. We show that audio compression (especially at low bit-rate) can be improved using this method. This new algorithms comes with an original modeling of asymptotic pursuit behaviors, using order statistics and tools from extreme values theory. Other contributions deal with the second member of the archival problem: indexing. The same framework is used and applied to different layers of signal structures. First, redundancies and musical repetition detection is addressed. At larger scale, we investigate audio fingerprinting schemes and apply it to radio broadcast on-line segmentation. Performances have been evaluated during an international campaign within the QUAERO project. Finally, the same framework is used to perform source separation informed by the redundancy. All these elements validate the proposed framework for the audio archiving task. The layered structures of audio data are accessed hierarchically by greedy decomposition algorithms and allow processing the different objectives of archival at different steps, thus addressing them within the same framework

Estilos ABNT, Harvard, Vancouver, APA, etc.

7

Baskind, Alexis. "Modèles et méthodes de description spatiale de scènes sonores : application aux enregistrements binauraux". Paris 6, 2003. http://www.theses.fr/2003PA066407.

Texto completo da fonte

Estilos ABNT, Harvard, Vancouver, APA, etc.

8

Rompré, Louis. "Vers une méthode de classification de fichiers sonores /". Thèse, Trois-Rivières : Université du Québec à Trois-Rivières, 2007. http://www.uqtr.ca/biblio/notice/resume/30024804R.pdf.

Texto completo da fonte

Estilos ABNT, Harvard, Vancouver, APA, etc.

9

Rompré, Louis. "Vers une méthode de classification de fichiers sonores". Thèse, Université du Québec à Trois-Rivières, 2007. http://depot-e.uqtr.ca/2022/1/030024804.pdf.

Texto completo da fonte

Estilos ABNT, Harvard, Vancouver, APA, etc.

10

Perotin, Lauréline. "Localisation et rehaussement de sources de parole au format Ambisonique : analyse de scènes sonores pour faciliter la commande vocale". Thesis, Université de Lorraine, 2019. http://www.theses.fr/2019LORR0124/document.

Texto completo da fonte

Resumo:

Cette thèse s'inscrit dans le contexte de l'essor des assistants vocaux mains libres. Dans un environnement domestique, l'appareil est généralement posé à un endroit fixe, tandis que le locuteur s'adresse à lui depuis diverses positions, sans nécessairement s'appliquer à être proche du dispositif, ni même à lui faire face. Cela ajoute des difificultés majeures par rapport au cas, plus simple, de la commande vocale en champ proche (pour les téléphones portables par exemple) : ici, la réverbération est plus importante ; des réflexions précoces sur les meubles entourant l'appareil peuvent brouiller le signal ; les bruits environnants sont également sources d'interférences. À ceci s'ajoutent de potentiels locuteurs concurrents qui rendent la compréhension du locuteur principal particulièrement difficile. Afin de faciliter la reconnaissance vocale dans ces conditions adverses, plusieurs pré-traitements sont proposés ici. Nous utilisons un format audio spatialisé, le format Ambisonique, adapté à l'analyse de scènes sonores. Dans un premier temps, nous présentons une méthode de localisation des sources sonores basée sur un réseau de neurones convolutif et récurrent. Nous proposons des descripteurs inspirés du vecteur d'intensité acoustique qui améliorent la performance de localisation, notamment dans des situations réelles où plusieurs sources sont présentes et l'antenne de microphones est posée sur une table. La technique de visualisation appelée layerwise relevance propagation (LRP) met en valeur les zones temps-fréquence positivement corrélées avec la localisation prédite par le réseau dans un cas donné. En plus d'être méthodologiquement indispensable, cette analyse permet d'observer que le réseau de neurones exploite principalement les zones dans lesquelles le son direct domine la réverbération et le bruit ambiant. Dans un second temps, nous proposons une méthode pour rehausser la parole du locuteur principal et faciliter sa reconnaissance. Nous nous plaçons dans le cadre de la formation de voies basée sur des masques temps-fréquence estimés par un réseau de neurones. Afin de traiter le cas où plusieurs personnes parlent à un volume similaire, nous utilisons l'information de localisation pour faire un premier rehaussement à large bande dans la direction du locuteur cible. Nous montrons que donner cette information supplémentaire au réseau n'est pas suffisant dans le cas où deux locuteurs sont proches ; en revanche, donner en plus la version rehaussée du locuteur concurrent permet au réseau de renvoyer de meilleurs masques. Ces masques permettent d'en déduire un filtre multicanal qui améliore grandement la reconnaissance vocale. Nous évaluons cet algorithme dans différents environnements, y compris réels, grâce à un moteur de reconnaissance de la parole utilisé comme boîte noire. Dans un dernier temps, nous combinons les systèmes de localisation et de rehaussement et nous évaluons la robustesse du second aux imprécisions du premier sur des exemples réels
This work was conducted in the fast-growing context of hands-free voice command. In domestic environments, smart devices are usually laid in a fixed position, while the human speaker gives orders from anywhere, not necessarily next to the device, or nor even facing it. This adds difficulties compared to the problem of near-field voice command (typically for mobile phones) : strong reverberation, early reflections on furniture around the device, and surrounding noises can degrade the signal. Moreover, other speakers may interfere, which make the understanding of the target speaker quite difficult. In order to facilitate speech recognition in such adverse conditions, several preprocessing methods are introduced here. We use a spatialized audio format suitable for audio scene analysis : the Ambisonic format. We first propose a sound source localization method that relies on a convolutional and recurrent neural network. We define an input feature vector inspired by the acoustic intensity vector which improves the localization performance, in particular in real conditions involving several speakers and a microphone array laid on a table. We exploit the visualization technique called layerwise relevance propagation (LRP) to highlight the time-frequency zones that are correlate positively with the network output. This analysis is of paramount importance to establish the validity of a neural network. In addition, it shows that the neural network essentially relies on time-frequency zones where direct sound dominates reverberation and background noise. We then present a method to enhance the voice of the main speaker and ease its recognition. We adopt a mask-based beamforming framework based on a time-frequency mask estimated by a neural network. To deal with the situation of multiple speakers with similar loudness, we first use a wideband beamformer to enhance the target speaker thanks to the associated localization information. We show that this additional information is not enough for the network when two speakers are close to each other. However, if we also give an enhanced version of the interfering speaker as input to the network, it returns much better masks. The filters generated from those masks greatly improve speech recognition performance. We evaluate this algorithm in various environments, including real ones, with a black-box automatic speech recognition system. Finally, we combine the proposed localization and enhancement systems and evaluate the robustness of the latter to localization errors in real environments

Estilos ABNT, Harvard, Vancouver, APA, etc.

Mais fontes

Livros sobre o assunto "Classification de scènes sonores"

1

Dispositifs sonores: Corps, scènes, atmosphères. Montréal: Presses de l'Université de Montréal, 2019.

Encontre o texto completo da fonte

Estilos ABNT, Harvard, Vancouver, APA, etc.

Oferecemos descontos em todos os planos premium para autores cujas obras estão incluídas em seleções literárias temáticas. Contate-nos para obter um código promocional único!