To see the other types of publications on this topic, follow the link: Traitement audio numérique.

Dissertations / Theses on the topic 'Traitement audio numérique'

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the top 24 dissertations / theses for your research on the topic 'Traitement audio numérique.'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Browse dissertations / theses on a wide variety of disciplines and organise your bibliography correctly.

1

Fillon, Thomas. "Traitement numérique du signal acoustique pour une aide aux malentendants." Phd thesis, Télécom ParisTech, 2004. http://pastel.archives-ouvertes.fr/pastel-00001201.

Full text
Abstract:
Pour un malentendant, le déficit auditif peut représenter un handicap majeur tant du point de vue physique que du point de vue social. Pour cette raison, la réhabilitation auditive constitue un champ d'application particulièrement important du traitement du signal audio et ses enjeux dépassent le seul contexte technologique. C'est dans ce cadre, et en particulier dans celui de la réhabilitation auditive par port de prothèses externes, que se situe ce travail de thèse. L'audition étant un sens particulièrement performant et complexe, compenser les pertes auditives des malentendants est une tâche difficile et délicate. En outre, les appareils sont conçus à partir d'éléments miniaturisés de pointe, notamment les micro-processeurs, ce qui impose des contraintes de fonctionnement très strictes. Au cours de nos recherches, nous avons travaillé sur la réalisation d'un module de rehaussement du signal de parole utilisant une technique d'atténuation spectrale à court-terme mise au point par Ephraïm et Malah. A l'issue de ce travail, nous avons proposé d'adapter cette méthode en réalisant l'analyse spectrale selon une échelle en fréquence conforme à notre perception auditive, l'échelle ERB (Equivalent Rectangular Bandwith) qui modélise la résolution fréquentielle des filtres auditifs. Dans un deuxième temps, nous avons étudié le problème de retour acoustique entre les transducteurs de la prothèse. Ce retour acoustique est source d'instabilité pour le système et aboutit fréquemment à la production d'un effet Larsen. Ce type de désagrément est extrêmement gênant et contraint l'audioprothésiste à limiter le gain d'amplification de la prothèse. De ce fait, la réhabilitation auditive ne peut pas être optimale. Pour pallier ce problème, nous proposons d'utiliser une méthode de filtrage adaptatif multi-délais basée sur le LMS (Least Mean Square) et réalisée dans le domaine de la transformée de Hartley. Du fait du retour acoustique, une prothèse auditive est un système électro-acoustique en boucle fermée. Les conditions d'application sont donc contraires aux hypothèses de convergence du LMS. Pour assurer la convergence de l'algorithme de descente de gradient, nous proposons une nouvelle méthode de définition du pas d'adaptation. Afin de vérifier le bon fonctionnement de la méthode proposée dans des conditions réalistes, nous avons mis en place une plate-forme de test en temps-réel basée sur un prototype de prothèses.
APA, Harvard, Vancouver, ISO, and other styles
2

Nesvadba, Jan. "Segmentation sémantique des contenus audio-visuels." Bordeaux 1, 2007. http://www.theses.fr/2007BOR13456.

Full text
Abstract:
Dans ce travail, nous avons mis au point une méthode de segmentation des contenus audiovisuels applicable aux appareils de stockage domestiques pour cela nous avons expérimenté un système distribué pour l'analyse du contenu composé de modules individuels d'analyse : les service unit. L'un entre eux a été dédié à la caractérisation des éléments hors contenu, i. E. Les publicités, et offre de bonnes perfermances. Parallélement, nous avons testé différents détecteurs de changement de plans afin de retenir le meilleur d'ente eux pour la suite. Puis, nous avons proposé une étude des règles de production des films, i. E. Grammaire de films, qui a permis de définir les séquences de parallel shot. Nous avons, ainsi, testé quatre méthodes de regroupement basées similarité afin de retenir la meilleure d'entre elles pour la suite. Finalement, nous avons recherché différentes méthodes de détection des frontières de scènes et avons obtenu les meilleurs résultats en combinant une méthode basée couleur avec un critère de longueur de plan. Ce dernier offre des performances justifiant son intégration dans les appareils de stockage grand public.
APA, Harvard, Vancouver, ISO, and other styles
3

Lapierre, Jimmy. "Approches paramétriques pour le codage audio multicanal." Mémoire, Université de Sherbrooke, 2007. http://savoirs.usherbrooke.ca/handle/11143/1355.

Full text
Abstract:
Résumé : Afin de répondre aux besoins de communication et de divertissement, il ne fait aucun doute que la parole et l’audio doivent être encodés sous forme numérique. En qualité CD, cela nécessite un débit numérique de 1411.2 kb/s pour un signal stéréo-phonique. Une telle quantité de données devient rapidement prohibitive pour le stockage de longues durées d’audio ou pour la transmission sur certains réseaux, particulièrement en temps réel (d’où l’adhésion universelle au format MP3). De plus, ces dernières années, la quantité de productions musicales et cinématographiques disponibles en cinq canaux et plus ne cesse d’augmenter. Afin de maintenir le débit numérique à un niveau acceptable pour une application donnée, il est donc naturel pour un codeur audio à bas débit d’exploiter la redondance entre les canaux et la psychoacoustique binaurale. Le codage perceptuel et plus particulièrement le codage paramétrique permet d’atteindre des débits manifestement inférieurs en exploitant les limites de l’audition humaine (étudiées en psychoacoustique). Cette recherche se concentre donc sur le codage paramétrique à bas débit de plus d’un canal audio. // Abstract : In order to fulfill our communications and entertainment needs, there is no doubt that speech and audio must be encoded in digital format. In"CD" quality, this requires a bit-rate of 1411.2 kb/s for a stereo signal. Such a large amount of data quickly becomes prohibitive for long-term storage of audio or for transmitting on some networks, especially in real-time (leading to a universal adhesion to the MP3 format). Moreover, throughout the course of these last years, the number of musical and cinematographic productions available in five channels or more continually increased.In order to maintain an acceptable bit-rate for any given application, it is obvious that a low bit-rate audio coder must exploit the redundancies between audio channels and binaural psychoacoustics. Perceptual audio coding, and more specifically parametric audio coding, offers the possibility of achieving much lower bit-rates by taking into account the limits of human hearing (psychoacoustics). Therefore, this research concentrates on parametric audio coding of more than one audio channel.
APA, Harvard, Vancouver, ISO, and other styles
4

González, Santos Ángel de Dios. "Circuits de traitement de signal numérique en temps continu ultra-faible consommation en technologie 28nm FDSOI pour applications audio." Thesis, Lille 1, 2020. http://www.theses.fr/2020LIL1I047.

Full text
Abstract:
L’objectif de ce travail c’est l’étude et développement d’un système d’extraction des caractéristiques en utilisant techniques de traitement de signal en temps continu, afin de mitiger les inconvénients des implémentations existants basées en techniques analogiques et numériques conventionnelles, d’un système toujours en veille pour l’Internet des Objets. La cible est l’extraction du contenu spectral d’un signal audio en utilisant une nouvelle architecture basée en une cascade configurable de filtres à réponse impulsionnelle fini en temps continu. Un schéma efficace pour cascader des filtres est obtenu grâce aux techniques proposées pour l’élimination des glitches et du codage delta. Par ailleurs, ce travail introduit une fonction en temps continu pour estimer la puissance instantanée dans des bandes de fréquences sélectionnées et construire un spectrogramme à la sortie. Le système proposé à 12-bandes fréquentielles a été validée par des simulations comportementales. L’élément clé pour l’implémentation de ce système est un élément de délai numérique. Un nouveau élément de retard a été conçu et fabriquée en technologie 28 nm FDSOI et atteints une plage de délai record entre 30 ns et 97 µs avec une consommation de puissance de 15fJ/événement. En extrapolant ce résultat, le système proposé atteints une consommation approximée de 2.85 µW lors du traitement d’un signal vocal produit par une femme, tandis que la consommation statique est autours de 100 nW dans les périodes où il n’y a pas d’activité. Donc, la performance en termes de consommation moyenne d’énergie de ce système surpasse celle des implémentations dans l’état de l’art
The focus of this work is the study and development of a feature extraction system using Continuous-Time Digital Signal Processing (CT DSP) techniques, to mitigate the drawbacks of existing implementations based on traditional analog and digital solutions of always-on monitoring sensors for the Internet of Things (IoT). The target is to extract the spectral content of an audio signal using a novel architecture based on a cascade of configurable CT DSP Finite Impulse Response (FIR) filters. An efficient cascade scheme is enabled by the proposed glitch elimination and delta encoding techniques. Additionally, this work introduces a CT function to estimate the instantaneous power within selected frequency bands to build an output spectrogram. The proposed 12-band system has been validated using behavioral simulations. The key element for the implementation of this system is the digital delay element. A new delay element has been designed and fabricated in 28nm FDSOI technology and achieves a record tuning range from 30 ns to 97 µs with a power consumption of 15 fJ/event. By extrapolating this result, the system would have an overall peak power consumption of 2.85 µW when processing typical female speech, while consuming approximately 100 nW when no events are generated. Thus, the average system power consumption outperforms state-of-the-art feature extraction circuits
APA, Harvard, Vancouver, ISO, and other styles
5

Hassaïne, Abdelâali. "Restauration des pistes sonores optiques cinématographiques : approche par traitement d'images." Phd thesis, École Nationale Supérieure des Mines de Paris, 2009. http://pastel.archives-ouvertes.fr/pastel-00005981.

Full text
Abstract:
La restauration des films anciens est un domaine de recherche qui a été largement étudié par la communauté scientifique. La restauration de la piste son optique, quant à elle, n'a été en pratique effectuée que dans le domaine audio, bien qu'elle constitue une image continue sur la pellicule photographique, située entre la succession des images et les perforations. Deux types de pistes son optiques existent : les pistes son à largeur variable qui contiennent une région transparente située entre deux régions opaques symétriques. La taille de la région transparente est proportionnelle à l'amplitude du signal audio. Pour la restauration de ce type de pistes, nous avons proposé des algorithmes pour le réglage d'azimut, la détection de l'axe de symétrie et la correction de la topologie. Le nettoyage est assuré par une étape de segmentation. Le second type est celui des pistes son à densité variable, dans lesquelles c'est l'intensité de chaque ligne qui est proportionnelle à l'amplitude du signal audio. Pour la restauration de ce type de pistes, nous avons proposé un algorithme pour la détection et la correction de la déviation d'azimut, puis un algorithme de « clipping » pour la suppression des différents défauts. Nous avons également étudié le problème de la mauvaise exposition des pistes son. Ce problème est dû à la diffusion de la lumière pendant les différentes copies. Plusieurs méthodes morphologiques ont été développées pour la détection et la restauration de ce type de défauts. Le système de restauration est d'abord évalué par nos partenaires experts en la matière. Nous avons aussi organisé des tests audio en aveugle pour avoir une évaluation objective des résultats.
APA, Harvard, Vancouver, ISO, and other styles
6

Lapierre, Jimmy. "Amélioration de codecs audio standardisés avec maintien de l'interopérabilité." Thèse, Université de Sherbrooke, 2016. http://hdl.handle.net/11143/8816.

Full text
Abstract:
Résumé : L’audio numérique s’est déployé de façon phénoménale au cours des dernières décennies, notamment grâce à l’établissement de standards internationaux. En revanche, l’imposition de normes introduit forcément une certaine rigidité qui peut constituer un frein à l’amélioration des technologies déjà déployées et pousser vers une multiplication de nouveaux standards. Cette thèse établit que les codecs existants peuvent être davantage valorisés en améliorant leur qualité ou leur débit, même à l’intérieur du cadre rigide posé par les standards établis. Trois volets sont étudiés, soit le rehaussement à l’encodeur, au décodeur et au niveau du train binaire. Dans tous les cas, la compatibilité est préservée avec les éléments existants. Ainsi, il est démontré que le signal audio peut être amélioré au décodeur sans transmettre de nouvelles informations, qu’un encodeur peut produire un signal amélioré sans ajout au décodeur et qu’un train binaire peut être mieux optimisé pour une nouvelle application. En particulier, cette thèse démontre que même un standard déployé depuis plusieurs décennies comme le G.711 a le potentiel d’être significativement amélioré à postériori, servant même de cœur à un nouveau standard de codage par couches qui devait préserver cette compatibilité. Ensuite, les travaux menés mettent en lumière que la qualité subjective et même objective d’un décodeur AAC (Advanced Audio Coding) peut être améliorée sans l’ajout d’information supplémentaire de la part de l’encodeur. Ces résultats ouvrent la voie à davantage de recherches sur les traitements qui exploitent une connaissance des limites des modèles de codage employés. Enfin, cette thèse établit que le train binaire à débit fixe de l’AMR WB+ (Extended Adaptive Multi-Rate Wideband) peut être compressé davantage pour le cas des applications à débit variable. Cela démontre qu’il est profitable d’adapter un codec au contexte dans lequel il est employé.
Abstract : Digital audio applications have grown exponentially during the last decades, in good part because of the establishment of international standards. However, imposing such norms necessarily introduces hurdles that can impede the improvement of technologies that have already been deployed, potentially leading to a proliferation of new standards. This thesis shows that existent coders can be better exploited by improving their quality or their bitrate, even within the rigid constraints posed by established standards. Three aspects are studied, being the enhancement of the encoder, the decoder and the bit stream. In every case, the compatibility with the other elements of the existent coder is maintained. Thus, it is shown that the audio signal can be improved at the decoder without transmitting new information, that an encoder can produce an improved signal without modifying its decoder, and that a bit stream can be optimized for a new application. In particular, this thesis shows that even a standard like G.711, which has been deployed for decades, has the potential to be significantly improved after the fact. This contribution has even served as the core for a new standard embedded coder that had to maintain that compatibility. It is also shown that the subjective and objective audio quality of the AAC (Advanced Audio Coding) decoder can be improved, without adding any extra information from the encoder, by better exploiting the knowledge of the coder model’s limitations. Finally, it is shown that the fixed rate bit stream of the AMR-WB+ (Extended Adaptive Multi-Rate Wideband) can be compressed more efficiently when considering a variable bit rate scenario, showing the need to adapt a coder to its use case.
APA, Harvard, Vancouver, ISO, and other styles
7

Parekh, Sanjeel. "Learning representations for robust audio-visual scene analysis." Thesis, Université Paris-Saclay (ComUE), 2019. http://www.theses.fr/2019SACLT015/document.

Full text
Abstract:
L'objectif de cette thèse est de concevoir des algorithmes qui permettent la détection robuste d’objets et d’événements dans des vidéos en s’appuyant sur une analyse conjointe de données audio et visuelle. Ceci est inspiré par la capacité remarquable des humains à intégrer les caractéristiques auditives et visuelles pour améliorer leur compréhension de scénarios bruités. À cette fin, nous nous appuyons sur deux types d'associations naturelles entre les modalités d'enregistrements audiovisuels (réalisés à l'aide d'un seul microphone et d'une seule caméra), à savoir la corrélation mouvement/audio et la co-occurrence apparence/audio. Dans le premier cas, nous utilisons la séparation de sources audio comme application principale et proposons deux nouvelles méthodes dans le cadre classique de la factorisation par matrices non négatives (NMF). L'idée centrale est d'utiliser la corrélation temporelle entre l'audio et le mouvement pour les objets / actions où le mouvement produisant le son est visible. La première méthode proposée met l'accent sur le couplage flexible entre les représentations audio et de mouvement capturant les variations temporelles, tandis que la seconde repose sur la régression intermodale. Nous avons séparé plusieurs mélanges complexes d'instruments à cordes en leurs sources constituantes en utilisant ces approches.Pour identifier et extraire de nombreux objets couramment rencontrés, nous exploitons la co-occurrence apparence/audio dans de grands ensembles de données. Ce mécanisme d'association complémentaire est particulièrement utile pour les objets où les corrélations basées sur le mouvement ne sont ni visibles ni disponibles. Le problème est traité dans un contexte faiblement supervisé dans lequel nous proposons un framework d’apprentissage de représentation pour la classification robuste des événements audiovisuels, la localisation des objets visuels, la détection des événements audio et la séparation de sources.Nous avons testé de manière approfondie les idées proposées sur des ensembles de données publics. Ces expériences permettent de faire un lien avec des phénomènes intuitifs et multimodaux que les humains utilisent dans leur processus de compréhension de scènes audiovisuelles
The goal of this thesis is to design algorithms that enable robust detection of objectsand events in videos through joint audio-visual analysis. This is motivated by humans’remarkable ability to meaningfully integrate auditory and visual characteristics forperception in noisy scenarios. To this end, we identify two kinds of natural associationsbetween the modalities in recordings made using a single microphone and camera,namely motion-audio correlation and appearance-audio co-occurrence.For the former, we use audio source separation as the primary application andpropose two novel methods within the popular non-negative matrix factorizationframework. The central idea is to utilize the temporal correlation between audio andmotion for objects/actions where the sound-producing motion is visible. The firstproposed method focuses on soft coupling between audio and motion representationscapturing temporal variations, while the second is based on cross-modal regression.We segregate several challenging audio mixtures of string instruments into theirconstituent sources using these approaches.To identify and extract many commonly encountered objects, we leverageappearance–audio co-occurrence in large datasets. This complementary associationmechanism is particularly useful for objects where motion-based correlations are notvisible or available. The problem is dealt with in a weakly-supervised setting whereinwe design a representation learning framework for robust AV event classification,visual object localization, audio event detection and source separation.We extensively test the proposed ideas on publicly available datasets. The experimentsdemonstrate several intuitive multimodal phenomena that humans utilize on aregular basis for robust scene understanding
APA, Harvard, Vancouver, ISO, and other styles
8

Mbaye, Amadou. "Linéarisation des amplificateurs de puissance large-bande pour des applications de communications tactiques et de diffusion audio ou vidéo numérique." Thesis, Paris Est, 2015. http://www.theses.fr/2015PEST1021/document.

Full text
Abstract:
L'amplificateur de puissance est le module le plus critique dans les équipements de communication radio. Il détermine la qualité de la liaison par sa linéarité et a une contribution conséquente dans la consommation de l'émetteur ; environ 60% de l'énergie consommée est consacré à l'amplification. Il est donc crucial de le faire fonctionner avec un rendement énergétique élevé. Cependant, ces deux spécifications principales de l'amplificateur que sont la linéarité et le rendement énergétique sont antagoniques. Par conséquent, la conception d'un module d'amplification de puissance suppose de trouver un compromis entre la linéarité et le rendement. L'optimisation de ce compromis est la raison d'être des techniques de linéarisation d'amplificateurs et d'amélioration du rendement, parmi lesquelles la prédistorsion numérique (DPD) et les techniques de réduction du PAPR du signal (CFR).Le cœur de cette thèse est la linéarisation d'amplificateurs RF haute-puissance et large-bande par prédistorsion numérique (DPD). Dans ces travaux, nous abordons trois problématiques liées à la prédistorsion et qui constituent des verrous technologiques importants. Le premier aspect concerne l'implémentation de la prédistorsion numérique dans un contexte multi-bande où le signal à linéariser comporte plusieurs formes d'ondes, situées à des fréquences différentes. La seconde problématique est l'utilisation conjointe de la prédistorsion avec une technique de CFR. Dans la majorité des applications haute-puissance, les techniques de DPD et de CFR sont présentes de manière complémentaire, cependant elles sont utilisées de façon autonome et disjointe. Celles-ci gagneraient en performances de linéarisation en étant implémentées de manière plus concertée. . Le dernier thème abordé par cette thèse est l'effet des désadaptations d'impédance de l'antenne sur le mode de fonctionnement de l'amplificateur. La variation de l'impédance d'antenne entraine des réflexions de signal vers l'amplificateur qui modifient ses spécifications de linéarité et de rendement. Nous améliorons la linéarité du système DPD + AP, lorsque l'amplificateur est soumis à des variations de l'impédance à sa charge, grâce à une correction adaptative de gain
Power amplifier is one of the most critical element within radiocommunications systems. The PA is their main source of nonlinearities and it has a great contribution on the emitter's power consumption. Running the PA with highest power efficiency is thus as crucial as having it linear for a good communication quality. However these two specifications of the PA are antagonistic and PA manifacturers need to find a compromise between linearity and power efficiency. Digital Predistortion (DPD) and Crest factor Reduction techniques are intended to improve power efficiency while preserving linearity or inversely. Linearization of wideband RF power amplifiers using Digital Predistortion is the focus of this thesis. Three DPD issues are investigated in these works. The first issue deals with multiband linearization where signals with various waveforms located at different frequency bands are amplified. The second objective of this thesis is to study a concurrent DPD/CFR systems based on an automatic estimation of the necessary CFR gain. The last part of this dissertation deals with PA linearization under antenna load variations. Indeed, the impedance of antenna may vary because of electromagnetic objects that are present in its vicinity. Those impedance variations may instigate signal reflections toward the PA, that modify some of its main specifications (linearity, delivered power and efficiency). Our goal in this field is to preserve DPD linearization performances under antenna load mismatch
APA, Harvard, Vancouver, ISO, and other styles
9

Gillet, Olivier. "Transcription des signaux percussifs : application à l'analyse de scènes musicales audiovisuelles." Phd thesis, Télécom ParisTech, 2007. http://pastel.archives-ouvertes.fr/pastel-00002805.

Full text
Abstract:
Cette thèse tisse des liens entre les domaines de l'indexation audio et de l'analyse de séquences d'images, à travers le problème de l'analyse de l'accompagnement rythmique des signaux de musique. Nous étudions d'abord le problème de la transcription de la piste de batterie d'enregistrements musicaux à partir de la modalité audio seule. Après avoir présenté des pré-traitements permettant d'accentuer cette piste, nous utilisons des techniques d'apprentissage statistique sur une large gamme d'attributs pour réaliser la transcription. Nous introduisons également des approches supervisées et non supervisées pour améliorer la reconnaissance en exploitant la régularité des motifs rythmiques. Nous incorporons ensuite à ce système de transcription l'information visuelle provenant de caméras filmant le batteur. Différentes approches sont présentées pour détecter la position des éléments de la batterie dans la scène et pour associer les régions extraites à des catégories sonores. Des descripteurs d'intensité de mouvement sont ensuite utilisés pour la détection des frappes. Les résultats démontrent la capacité d'une approche multimodale à résoudre certaines des ambiguïtés propres à la transcription audio. Nous étendons enfin nos travaux aux clips vidéos, en tentant de mesurer de quelle manière la musique peut être illustrée par des images. Après avoir présenté ou introduit de nouvelles méthodes de structuration automatique des flux audio et vidéo à différents niveaux, nous définissons des mesures de synchronie sur les structures obtenues. Ces mesures, qui s'avèrent dépendantes du type de document musical, permettent des applications de recherche de musique par l'image.
APA, Harvard, Vancouver, ISO, and other styles
10

Bayle, Yann. "Apprentissage automatique de caractéristiques audio : application à la génération de listes de lecture thématiques." Thesis, Bordeaux, 2018. http://www.theses.fr/2018BORD0087/document.

Full text
Abstract:
Ce mémoire de thèse de doctorat présente, discute et propose des outils de fouille automatique de mégadonnées dans un contexte de classification supervisée musical.L'application principale concerne la classification automatique des thèmes musicaux afin de générer des listes de lecture thématiques.Le premier chapitre introduit les différents contextes et concepts autour des mégadonnées musicales et de leur consommation.Le deuxième chapitre s'attelle à la description des bases de données musicales existantes dans le cadre d'expériences académiques d'analyse audio.Ce chapitre introduit notamment les problématiques concernant la variété et les proportions inégales des thèmes contenus dans une base, qui demeurent complexes à prendre en compte dans une classification supervisée.Le troisième chapitre explique l'importance de l'extraction et du développement de caractéristiques audio et musicales pertinentes afin de mieux décrire le contenu des éléments contenus dans ces bases de données.Ce chapitre explique plusieurs phénomènes psychoacoustiques et utilise des techniques de traitement du signal sonore afin de calculer des caractéristiques audio.De nouvelles méthodes d'agrégation de caractéristiques audio locales sont proposées afin d'améliorer la classification des morceaux.Le quatrième chapitre décrit l'utilisation des caractéristiques musicales extraites afin de trier les morceaux par thèmes et donc de permettre les recommandations musicales et la génération automatique de listes de lecture thématiques homogènes.Cette partie implique l'utilisation d'algorithmes d'apprentissage automatique afin de réaliser des tâches de classification musicale.Les contributions de ce mémoire sont résumées dans le cinquième chapitre qui propose également des perspectives de recherche dans l'apprentissage automatique et l'extraction de caractéristiques audio multi-échelles
This doctoral dissertation presents, discusses and proposes tools for the automatic information retrieval in big musical databases.The main application is the supervised classification of musical themes to generate thematic playlists.The first chapter introduces the different contexts and concepts around big musical databases and their consumption.The second chapter focuses on the description of existing music databases as part of academic experiments in audio analysis.This chapter notably introduces issues concerning the variety and unequal proportions of the themes contained in a database, which remain complex to take into account in supervised classification.The third chapter explains the importance of extracting and developing relevant audio features in order to better describe the content of music tracks in these databases.This chapter explains several psychoacoustic phenomena and uses sound signal processing techniques to compute audio features.New methods of aggregating local audio features are proposed to improve song classification.The fourth chapter describes the use of the extracted audio features in order to sort the songs by themes and thus to allow the musical recommendations and the automatic generation of homogeneous thematic playlists.This part involves the use of machine learning algorithms to perform music classification tasks.The contributions of this dissertation are summarized in the fifth chapter which also proposes research perspectives in machine learning and extraction of multi-scale audio features
APA, Harvard, Vancouver, ISO, and other styles
11

Bitton, Adrien. "Meaningful audio synthesis and musical interactions by representation learning of sound sample databases." Electronic Thesis or Diss., Sorbonne université, 2021. http://www.theses.fr/2021SORUS362.

Full text
Abstract:
La musique assistée par ordinateur fait beaucoup usage de librairies d’échantillons audios et d'instruments numériques qui offrent des possibilités de composition sans précédent. L’abondance des matériaux sonores disponibles nécessite de nouvelles méthodes d’interaction en adéquation avec ceux-ci sans quoi le parcours des échantillons audios est inefficace et arbitraire. En effet, les métadonnées qui structurent traditionnellement ces librairies ne peuvent que traduire grossièrement les caractéristiques acoustiques des différentes catégories sonores. Notamment, les variations continues du timbre musical ne sont pas exprimées alors qu’elles jouent un rôle significatif dans la production et la créativité musicale. Les progrès des modèles d’apprentissage génératif ont démontré des capacités sans précédent pour le traitement des données à grande échelle. Ces méthodes probabilistes permettent la construction d’espaces non supervisés pour la synthèse de données et ont permis de nouvelles interactions telles que la conversion automatique d’images et la manipulation d’attributs perceptifs et stylistiques. Au cours de cette thèse, nous développons des techniques d’analyse/synthèse efficaces basées sur les modèles auto-encodeurs afin d’apprendre des représentations acoustiques inversibles de basse dimensionnalité pour la manipulation intuitive du timbre musical. En premier lieu, nous adaptons les techniques non supervisées de conversion d’images au transfert de propriétés de timbre. Ensuite, nous introduisons de nouveaux modèles pour l’apprentissage explicite de représentations du timbre musical et l’échantillonnage avec contrôle des propriétés acoustiques et sémantiques
Computer assisted music extensively relies on audio sample libraries and virtual instruments which provide users an ever increasing amount of contents to produce music with. However, principled methods for large-scale interactions are lacking so that browsing samples and presets with respect to a target sound idea is a tedious and arbitrary process. Indeed, library metadata can only describe coarse categories of sounds but do not meaningfully traduce the underlying acoustic contents and continuous variations in timbre which are key elements of music production and creativity. The recent advances in deep generative modelling show unprecedented successes at learning large-scale unsupervised representations which invert to data as diverse as images, texts and audio. These probabilistic models could be refined to specific generative tasks such as unpaired image translation and semantic manipulations of visual features, demonstrating the ability of learning transformations and representations that are perceptually meaningful. In this thesis, we target efficient analysis and synthesis with auto-encoders to learn low dimensional acoustic representations for timbre manipulations and intuitive interactions for music production. In the first place we adapt domain translation techniques to timbre transfer and propose alternatives to adversarial learning for many-to-many transfers. Then we develop models for explicit modelling of timbre variations and controllable audio sampling using conditioning for semantic attribute manipulations and hierarchical learning to represent both acoustic and temporal variations
APA, Harvard, Vancouver, ISO, and other styles
12

Huvet, Chloé. "D’Un nouvel espoir (1977) à La revanche des Sith (2005) : écriture musicale et traitement de la partition au sein du complexe audio-visuel dans la saga Star Wars." Thesis, Rennes 2, 2017. http://www.theses.fr/2017REN20048.

Full text
Abstract:
Fait unique dans l’histoire du cinéma, les partitions du gigantesque cycle dischronique qu’est la saga Star Wars, couvrant une période très étirée de vingt-huit ans, sont toutes de la main de John Williams. Cette constance compositionnelle devrait a priori faire des deux trilogies (1977-1983 et 1999-2005) un tout cohérent et unifié, d’autant que George Lucas envisage les six épisodes comme une seule et même entité. Pourtant, l’unité musicale de l’hexalogie et la signature musicale « starwarsienne » sont loin d’aller de soi, prenant la forme d’un idéal dénué de fondements solides réels.En adoptant une approche comparative transversale et en faisant varier différentes échelles d’analyse (épisode, trilogie, saga), la présente thèse a ainsi pour projet de montrer de quelles manières le matériau musical, les pratiques compositionnelles de Williams, mais aussi le traitement et l’intégration de la partition au sein du complexe audio-visuel font l’objet de profondes transformations entre les deux trilogies. Notre recherche interroge également dans quelle mesure et selon quelles modalités ces changements dans l’écriture musicale et l’utilisation de la partition dans les différents épisodes sont liés aux mutations des techniques cinématographiques, en particulier aux bouleversements dunumérique. Mettant à profit l’exploitation de sources manuscrites inédites et d’entretiens personnels réalisés auprès de l’orchestrateur principal de Williams, Conrad Pope, et de son music editor Kenneth Wannberg, notre travail met en oeuvre une interdisciplinarité affirmée au croisement de l’analyse musicale, de l’histoire du cinéma et des technologies
The scores of the Star Wars saga, a gigantic dischronic cycle spanning over a long period of twentyeight years, are all composed by John Williams, a unique configuration in cinema history. This compositional consistency should theoretically establish the two trilogies (1977-1983 and 1999-2005) as a coherent and unified whole, especially as George Lucas considers the six episodes as one single entity. Nevertheless, the hexalogy’s musical unity and the existence of a Star Wars musical signature are far from self-evident, instead taking the form of an ideal devoid of real, solid foundations.By adopting a comparative cross-disciplinary approach and by resorting to different scales of analysis (episode, trilogy, saga), this dissertation aims to show in which ways the musical material, Williams’ compositional practice as well as the use and integration of the score within the audiovisual complex are subjected to profound transformations between the two trilogies. This research also questions how and to what extent these changes in Williams’s writing and the score’s treatment in the different episodes are related to the mutations of film techniques, especially those of the digital age.Drawing on unreleased hand-written sources and personal interviews conducted with Williams’ main orchestrator, Conrad Pope, and his music editor, Kenneth Wannberg, this dissertation implements a firm interdisciplinarity at the intersection of musical analysis, cinema and technology history
APA, Harvard, Vancouver, ISO, and other styles
13

De, Campos Teixeira Gomes Leandro. "Tatouage de signaux audio." Paris 5, 2002. http://www.theses.fr/2002PA05S009.

Full text
Abstract:
Les enregistrements audio sous forme numérique peuvent être facilement reproduits sans aucune distorsion et à l'aide de dispositifs accessibles au grand public. Le problème du piratage se pose donc aujourd'hui avec une acuité nouvelle. Le tatouage audio ("audio watermarking" en anglais) a été proposé comme une solution potentielle à ce problème. Il consiste à insérer une marque, le tatouage, dans un signal audio. Cette marque ne doit pas dégrader la qualité perceptive du signal original, mais elle doit être détectable et en général indélébile. Un signal contenant un tatouage, signal dit "tatoué", porte des données qui peuvent, par exemple, identifier le propriétaire et décrire les droits accordés à l'utilisateur sur le signal. Ce travail concerne le développement de nouvelles méthodes de tatouage audio et l'étude d'applications. Il présente notamment un système de tatouage à clé publique fondé sur des propriétés de cyclostationnarité : la cyclofréquence du tatouage permet à l'utilisateur d'effectuer la détection. . .
APA, Harvard, Vancouver, ISO, and other styles
14

Pallone, Grégory. "Dilatation et transposition sous contraintes perceptives des signaux audio : application au transfert cinéma-vidéo." Aix-Marseille 2, 2003. https://tel.archives-ouvertes.fr/tel-00003363v4.

Full text
APA, Harvard, Vancouver, ISO, and other styles
15

Olivero, Anaik. "Les multiplicateurs temps-fréquence : Applications à l’analyse et la synthèse de signaux sonores et musicaux." Thesis, Aix-Marseille, 2012. http://www.theses.fr/2012AIXM4788/document.

Full text
Abstract:
Cette thèse s'inscrit dans le contexte de l'analyse/transformation/synthèse des signaux audio utilisant des représentations temps-fréquence, de type transformation de Gabor. Dans ce contexte, la complexité des transformations permettant de relier des sons peut être modélisée au moyen de multiplicateurs de Gabor, opérateurs de signaux linéaires caractérisés par une fonction de transfert temps-fréquence, à valeurs complexes, que l'on appelle masque de Gabor. Les multiplicateurs de Gabor permettent deformaliser le concept de filtrage dans le plan temps-fréquence. En agissant de façon multiplicative dans le plan temps-fréquence, ils sont a priori bien adaptés pour réaliser des transformations sonores telles que des modifications de timbre des sons. Dans un premier temps, ce travail de thèses intéresse à la modélisation du problème d'estimation d'un masque de Gabor entre deux signaux donnés et la mise en place de méthodes de calculs efficaces permettant de résoudre le problème. Le multiplicateur de Gabor entre deux signaux n'est pas défini de manière unique et les techniques d'estimation proposées de construire des multiplicateurs produisant des signaux sonores de qualité satisfaisante. Dans un second temps, nous montrons que les masques de Gabor contiennent une information pertinente capable d'établir une classification des signaux,et proposons des stratégies permettant de localiser automatiquement les régions temps-fréquence impliquées dans la différentiation de deux classes de signaux. Enfin, nous montrons que les multiplicateurs de Gabor constituent tout un panel de transformations sonores entre deux sons, qui, dans certaines situations, peuvent être guidées par des descripteurs de timbre
Analysis/Transformation/Synthesis is a generalparadigm in signal processing, that aims at manipulating or generating signalsfor practical applications. This thesis deals with time-frequencyrepresentations obtained with Gabor atoms. In this context, the complexity of a soundtransformation can be modeled by a Gabor multiplier. Gabormultipliers are linear diagonal operators acting on signals, andare characterized by a time-frequency transfer function of complex values, called theGabor mask. Gabor multipliers allows to formalize the conceptof filtering in the time-frequency domain. As they act by multiplying in the time-frequencydomain, they are "a priori'' well adapted to producesound transformations like timbre transformations. In a first part, this work proposes to model theproblem of Gabor mask estimation between two given signals,and provides algorithms to solve it. The Gabor multiplier between two signals is not uniquely defined and the proposed estimationstrategies are able to generate Gabor multipliers that produce signalswith a satisfied sound quality. In a second part, we show that a Gabor maskcontain a relevant information, as it can be viewed asa time-frequency representation of the difference oftimbre between two given sounds. By averaging the energy contained in a Gabor mask, we obtain a measure of this difference that allows to discriminate different musical instrumentsounds. We also propose strategies to automaticallylocalize the time-frequency regions responsible for such a timbre dissimilarity between musicalinstrument classes. Finally, we show that the Gabor multipliers can beused to construct a lot of sounds morphing trajectories,and propose an extension
APA, Harvard, Vancouver, ISO, and other styles
16

Daudet, Laurent. "Représentations structurelles de signaux audiophoniques : méthodes hybrides pour des applications à la compression." Aix-Marseille 1, 2000. http://www.theses.fr/2000AIX11056.

Full text
Abstract:
La recherche d'une bonne représentation numérique des sons musicaux est actuellement un enjeu important pour l'industrie musicale, notamment en vue du stockage et de la transmission. Nous désirons une représentation qui soit à la fois précise (fidèle d'un point de vue perceptif) et efficace (qui utilise la quantité de données la plus faible possible, en gardant une complexité faible). Nous envisagerons donc des modèles de sons d'autant plus précis que la classe de sons envisagée est étroite. Nous illustrons ici ce concept par deux exemples de modèles sonores. Le premier, basé sur des modèles de signaux, permet de représenter les sons de manière complètement générale, en les décomposant en trois couches dites partie tonale, transitoires et partie stochastique. Pour une grande majorité de sons, nous montrons que ces représentations hybrides sont particulièrement efficaces, les trois couches étant par construction compactes dans certaines bases. L'idée sous-jacente est la recherche de structures dans la localisation des coefficients significatifs. Outre l'application à la compression, ces représentations permettent une implémentation efficace de certains effets sonores et modèles psychoacoustiques. La seconde application permet, dans le cas où l'on ne se préoccupe que d'un seul instrument, d'appuyer nos modèles sur les mécaniques physiques de production sonore. Plus précisément, nous présentons un modèle de resynthèse des vibrations de cordes de piano, basé sur le formalisme des guides d'onde digitaux. Nous montrons qu'il est nécessaire d'envisager le couplage des vibrations dans les deux directions transverses, et que celui-ci peut être implémenté par un couplage linéaire et complexe, dépendant de la fréquence. Nous montrons que les paramètres du modèle peuvent être extraits de signaux expérimentaux. Ce type de modèles "physiques" permet un contrôle inatteignable par la majorité des synthétiseurs commerciaux.
APA, Harvard, Vancouver, ISO, and other styles
17

Gonon, Gilles. "Proposition d'un schéma d'analyse/synthèse adaptatif dans le plan temps-fréquence basé sur des critères entropiques : application au codage audio par transformée." Le Mans, 2002. http://cyberdoc.univ-lemans.fr/theses/2002/2002LEMA1004.pdf.

Full text
Abstract:
Les représentations adaptées contribuent à l'étude et au traitement des informations portées par les signaux en permettant une analyse pertinente différente pour chaque signal. Ce travail de thèse porte sur l'élaboration d'une représentation utilisant successivement des segmentations temporelle et fréquentielle adaptées au signal plus souple que les solutions existantes. Ce schéma est appliqué dans un codeur perceptuel par transformée de type haute fidélité. Le signal est d'abord segmenté temporellement. Le critère utilisé est basé sur un estimateur d'entropie locale, dont il fournit un indice des variations, propice à une segmentation automatique séparant les zones transitoires et les zones stationnaires. Les tranches temporelles ainsi délimitées sont alors décomposées en paquets d'ondelettes et une recherche de la meilleure base permet l'adaptation en fréquence de la représentation. Une extension de la recherche de meilleure base est proposée pour augmenter le dictionnaire des bases disponibles par rapport au cas dyadique. À l'issue de cette analyse le signal est localisé dans des atomes du plan temps-fréquence. Un codeur d'architecture orginale incluant notre représentation est ensuite présenté, ainsi que le détail de son implémentation. Ce codeur est évalué par des tests subjectifs comparant les sons compressés aux originaux et au standard MPEG1-III pour un débit de 96 kbit/s. Les résultats montrent que l'utilisation du schéma de représentation adapté dans un codeur est compétitif avec les solutions des codeurs standards alors que de nombreuses améliorations sont possibles
Adaptive representations contribute to the study and caracterization of the information carried by any signal. In this work, we present a new decomposition which uses separated segmentation criterias in time and frequency to improve the adaptivity of the analysis to the signal. This scheme is applied to a transform perceptual audio coder. The signal is first temporally segmented using a local entropic criteria. Based upon an estimator of the local entropy, the segmentation criteria is relevant of the entropy variations in a signal and allows to separate stationnary parts from transients ones. Temporal frames thus defined are frequentially filtered using the Wavelet Packet Decomposition and the adaptation is performed by the mean of the Best Basis Search Algorithm. An extension of the library of dyadic basis is derived to improve the entropic gain performed over the signal and so the adaptivity of the decomposition. The perceptual audio coder we developped follows an original design in order to include the proposed scheme. The whole implementation of the coder is described in the document. This coder is evaluated with subjective tests, performed according to absolute and blind comparison for a rate of 96 kbps. As many parts of our coder are still to be improved, results show a subjective quality equivalent to the tested standard and hardly transparent toward the original sounds
APA, Harvard, Vancouver, ISO, and other styles
18

Dessein, Arnaud. "Méthodes Computationnelles en Géométrie de l'Information et Applications Temps Réel au Traitement du Signal Audio." Phd thesis, Université Pierre et Marie Curie - Paris VI, 2012. http://tel.archives-ouvertes.fr/tel-00768524.

Full text
Abstract:
Cette thèse propose des méthodes computationnelles nouvelles en géométrie de l'information, avec des applications temps réel au traitement du signal audio. Dans ce contexte, nous traitons en parallèle les problèmes applicatifs de la segmentation audio en temps réel, et de la transcription de musique polyphonique en temps réel. Nous abordons ces applications par le développement respectif de cadres théoriques pour la détection séquentielle de ruptures dans les familles exponentielles, et pour la factorisation en matrices non négatives avec des divergences convexes-concaves. D'une part, la détection séquentielle de ruptures est étudiée par l'intermédiaire de la géométrie de l'information dualement plate liée aux familles exponentielles. Nous développons notamment un cadre statistique générique et unificateur, reposant sur des tests d'hypothèses multiples à l'aide de rapports de vraisemblance généralisés exacts. Nous appliquons ce cadre à la conception d'un système modulaire pour la segmentation audio temps réel avec des types de signaux et de critères d'homogénéité arbitraires. Le système proposé contrôle le flux d'information audio au fur et à mesure qu'il se déroule dans le temps pour détecter des changements. D'autre part, nous étudions la factorisation en matrices non négatives avec des divergences convexes-concaves sur l'espace des mesures discrètes positives. En particulier, nous formulons un cadre d'optimisation générique et unificateur pour la factorisation en matrices non négatives, utilisant des bornes variationnelles par le biais de fonctions auxiliaires. Nous mettons ce cadre à profit en concevant un système temps réel de transcription de musique polyphonique avec un contrôle explicite du compromis fréquentiel pendant l'analyse. Le système développé décompose le signal musical arrivant au cours du temps sur un dictionnaire de modèles spectraux de notes. Ces contributions apportent des pistes de réflexion et des perspectives de recherche intéressantes dans le domaine du traitement du signal audio, et plus généralement de l'apprentissage automatique et du traitement du signal, dans le champ relativement jeune mais néanmoins fécond de la géométrie de l'information computationnelle.
APA, Harvard, Vancouver, ISO, and other styles
19

Najnudel, Judy. "Power-Balanced Modeling of Nonlinear Electronic Components and Circuits for Audio Effects." Electronic Thesis or Diss., Sorbonne université, 2022. http://www.theses.fr/2022SORUS223.

Full text
Abstract:
Cette thèse porte sur la modélisation de composants électroniques non linéaires pour la simulation de circuits analogiques audio. Notre but est de proposer des modèles à la fois assez sophistiqués pour que les simulations sonnent de façon réaliste, et assez simples pour permettre le temps réel. À cette fin, nous explorons deux approches, toutes deux fondées sur le formalisme des Systèmes Hamiltoniens à Ports (SHP). En effet, ce formalisme préserve la passivité et le bilan de puissance du système, ce qui, couplé à des méthodes numériques ad hoc, garantit la stabilité des simulations. La première approche est orientée "boîte blanche" : on suppose la topologie du circuit connue et on se concentre sur la modélisation de composants spécifiques, à savoir les bobines ferromagnétiques (présentes dans les pédales wah-wah et les amplis guitare) et les opto-isolateurs (présents dans les trémolos et les compresseurs optiques). Les modèles proposés sont issus de la physique, passifs, modulaires, et utilisables en temps réel. La deuxième approche est orientée "boîte grise" : on cherche à retrouver la topologie et les lois constitutives d'un circuit à partir de mesures. L'apprentissage est informé par une structure SHP sous-jacente, et les non-linéarités sont traitées au moyen de noyaux reproduisants. Ainsi, on impose certaines propriétés physiques indispensables, tout en autorisant une large gamme de comportements non linéaires. Le modèle obtenu est interprétable et nécessite moins de paramètres comparé à un modèle issu de réseaux profonds. Enfin, une généralisation de cette approche pour une plus grand classe de circuits est esquissée à travers l'introduction de l'opérateur de Koopman
This thesis is concerned with the modeling of nonlinear components and circuits for simulations in audio applications. Our goal is to propose models that are sufficiently sophisticated for simulations to sound realistic, but that remain simple enough for real time to be attainable. To this end, we explore two approaches, both based on a port-Hamiltonian systems formulation. Indeed, this formulation structurally guarantees power balance and passivity. Combined with ad hoc numerical methods, this ensures the numerical stability of simulations. The first approach is comparable to "white box" modeling. It assumes that the circuit topology is known, and focuses on the modeling of specific components found in vintage audio circuits, namely ferromagnetic coils (found in wah-wah pedals and guitar amplifiers) and opto-isolators (found in tremolos and optical compressors). The proposed models are physically-based, passive, modular, and usable in real time. The second approach is comparable to "grey box" modeling. It aims to retrieve the topology and constitutive laws of a circuit from measurements. The learning of the circuit topology is informed by an underlying port-Hamiltonian formulation, and nonlinearities are concomitantly addressed through kernel-based methods. Thus, necessary physical properties are enforced, while the use of reproducing kernels allows for a variety of nonlinear behaviors to be described with a smaller number of parameters and a higher interpretability compared to neural network methods. Finally, a possible generalization of this approach for a larger class of circuits is outlined through the introduction of the Koopman operator
APA, Harvard, Vancouver, ISO, and other styles
20

Emiya, Valentin. "Transcription automatique de la musique de piano." Phd thesis, Télécom ParisTech, 2008. http://pastel.archives-ouvertes.fr/pastel-00004867.

Full text
Abstract:
La transcription automatique de la musique (TAM) s'inscrit dans le champ de l'indexation audio et de la recherche d'informations musicales. Elle vise à extraire l'information relative aux notes jouées - début, fin, hauteur - dans un enregistrement numérique. Cette thèse aborde la TAM dans le cadre du piano, instrument difficile à transcrire par les systèmes actuels et qui occupe une place majeure d'instrument solo dans la musique occidentale. La problématique générale de la TAM étant vaste et complexe, nous exploitons certains aspects spécifiques du piano pour spécialiser la tâche, tout en abordant des thématiques générales comme l'estimation de fréquences fondamentales (F0) ou l'évaluation. Nous étudions tout d'abord la caractérisation spectrale des sons de piano pour la transcription à travers la distribution inharmonique des partiels, la modélisation de l'enveloppe spectrale des notes et celle du bruit. Nous proposons ensuite une méthode d'estimation de F0 isolées performante dans des conditions d'analyse difficiles qui sont réunies dans le cas du piano: les contraintes d'une fenêtre d'analyse courte et d'un registre étendu. L'estimation de F0 multiples et du degré de polyphonie est abordée via une modélisation conjointe paramétrique (autorégressive/à moyenne ajustée). Cette méthode spectrale s'intègre dans un système de TAM pour le piano analysant tout enregistrement avec des limites raisonnables en termes de polyphonie, de vélocité et de tessiture. Enfin, nous proposons de nouvelles métriques d'évaluation des transcriptions, un cadre d'évaluation de la qualité des métriques et une base de données de sons de piano pour l'estimation de F0 multiples et la TAM.
APA, Harvard, Vancouver, ISO, and other styles
21

Cuvillier, Philippe. "On temporal coherency of probabilistic models for audio-to-score alignment." Thesis, Paris 6, 2016. http://www.theses.fr/2016PA066532/document.

Full text
Abstract:
Cette thèse porte sur l'alignement automatique d'un enregistrement audio avec la partition de musique correspondante. Nous adoptons une approche probabiliste et proposons une démarche théorique pour la modélisation algorithmique de ce problème d'alignement automatique. La question est de modéliser l'évolution temporelle des événements par des processus stochastiques. Notre démarche part d'une spécificité de l'alignement musical : une partition attribue à chaque événement une durée nominale, qui est une information a priori sur la durée probable d'occurrence de l'événement. La problématique qui nous occupe est celle de la modélisation probabiliste de cette information de durée. Nous définissons la notion de cohérence temporelle à travers plusieurs critères de cohérence que devrait respecter tout algorithme d'alignement musical. Ensuite, nous menons une démarche axiomatique autour du cas des modèles de semi-Markov cachés. Nous démontrons que ces critères sont respectés lorsque des conditions mathématiques particulières sont vérifiées par les lois a priori du modèle probabiliste de la partition. Ces conditions proviennent de deux domaines mathématiques jusqu'ici étrangers à la question de l'alignement : les processus de Lévy et la totale positivité d'ordre deux. De nouveaux résultats théoriques sont démontrés sur l'interrelation entre ces deux notions. En outre, les bienfaits pratiques de ces résultats théoriques sont démontrés expérimentalement sur des algorithmes d'alignement en temps réel
This thesis deals with automatic alignment of audio recordings with corresponding music scores. We study algorithmic solutions for this problem in the framework of probabilistic models which represent hidden evolution on the music score as stochastic process. We begin this work by investigating theoretical foundations of the design of such models. To do so, we undertake an axiomatic approach which is based on an application peculiarity: music scores provide nominal duration for each event, which is a hint for the actual and unknown duration. Thus, modeling this specific temporal structure through stochastic processes is our main problematic. We define temporal coherency as compliance with such prior information and refine this abstract notion by stating two criteria of coherency. Focusing on hidden semi-Markov models, we demonstrate that coherency is guaranteed by specific mathematical conditions on the probabilistic design and that fulfilling these prescriptions significantly improves precision of alignment algorithms. Such conditions are derived by combining two fields of mathematics, Lévy processes and total positivity of order 2. This is why the second part of this work is a theoretical investigation which extends existing results in the related literature
APA, Harvard, Vancouver, ISO, and other styles
22

Cuvillier, Philippe. "On temporal coherency of probabilistic models for audio-to-score alignment." Electronic Thesis or Diss., Paris 6, 2016. http://www.theses.fr/2016PA066532.

Full text
Abstract:
Cette thèse porte sur l'alignement automatique d'un enregistrement audio avec la partition de musique correspondante. Nous adoptons une approche probabiliste et proposons une démarche théorique pour la modélisation algorithmique de ce problème d'alignement automatique. La question est de modéliser l'évolution temporelle des événements par des processus stochastiques. Notre démarche part d'une spécificité de l'alignement musical : une partition attribue à chaque événement une durée nominale, qui est une information a priori sur la durée probable d'occurrence de l'événement. La problématique qui nous occupe est celle de la modélisation probabiliste de cette information de durée. Nous définissons la notion de cohérence temporelle à travers plusieurs critères de cohérence que devrait respecter tout algorithme d'alignement musical. Ensuite, nous menons une démarche axiomatique autour du cas des modèles de semi-Markov cachés. Nous démontrons que ces critères sont respectés lorsque des conditions mathématiques particulières sont vérifiées par les lois a priori du modèle probabiliste de la partition. Ces conditions proviennent de deux domaines mathématiques jusqu'ici étrangers à la question de l'alignement : les processus de Lévy et la totale positivité d'ordre deux. De nouveaux résultats théoriques sont démontrés sur l'interrelation entre ces deux notions. En outre, les bienfaits pratiques de ces résultats théoriques sont démontrés expérimentalement sur des algorithmes d'alignement en temps réel
This thesis deals with automatic alignment of audio recordings with corresponding music scores. We study algorithmic solutions for this problem in the framework of probabilistic models which represent hidden evolution on the music score as stochastic process. We begin this work by investigating theoretical foundations of the design of such models. To do so, we undertake an axiomatic approach which is based on an application peculiarity: music scores provide nominal duration for each event, which is a hint for the actual and unknown duration. Thus, modeling this specific temporal structure through stochastic processes is our main problematic. We define temporal coherency as compliance with such prior information and refine this abstract notion by stating two criteria of coherency. Focusing on hidden semi-Markov models, we demonstrate that coherency is guaranteed by specific mathematical conditions on the probabilistic design and that fulfilling these prescriptions significantly improves precision of alignment algorithms. Such conditions are derived by combining two fields of mathematics, Lévy processes and total positivity of order 2. This is why the second part of this work is a theoretical investigation which extends existing results in the related literature
APA, Harvard, Vancouver, ISO, and other styles
23

Massé, Pierre. "Analysis, Treatment, and Manipulation Methods for Spatial Room Impulse Responses Measured with Spherical Microphone Arrays." Electronic Thesis or Diss., Sorbonne université, 2022. http://www.theses.fr/2022SORUS079.

Full text
Abstract:
L'utilisation de réponses impulsionnelles spatiales de salles (spatial room impulse response, SRIR) dans la reproduction d'effets de réverbération de salle tri-dimensionnels connaît aujourd'hui une réelle démocratisation grâce à la commercialisation répandue d'antennes sphériques de microphones (spherical microphone array, SMA) et à une capacité de calcul numérique en croissance continue. Ces SRIR peuvent reproduire des effets de réverbération spatialisés sur des dispositifs immersifs ("surround-sound") à travers des convolutions multicanal de plus en plus performantes. De cette utilisation découle naturellement une demande pour des techniques d'analyse et de traitement non seulement capables d'assurer une reproduction fidèle, mais qui pourraient éventuellement aussi servir à contrôler différentes modifications de la SRIR de façon plus créative que réaliste. Dans ce contexte, l'objectif principal de cette thèse est de développer un environnement complet d'analyse, de traitement, et de manipulation temps-fréquence-espace de SRIR. Les outils d'analyse doivent mener à une modélisation approfondie permettant ensuite un traitement de la mesure vis-à-vis de ses limitations intrinsèques (conditions de mesure, accumulation de bruit de fond, etc.) ainsi qu'une capacité à faire évoluer certaines caractéristiques de l'effet de réverbération décrit par la SRIR. Ces caractéristiques peuvent être tout à fait objectives, c'est-à-dire explicitement reliées à différents paramètres du modèle, ou alors plutôt informées par une connaissance de la perception humaine de l'acoustique des salles. Les aspects théoriques de ce projet de recherche sont présentés en deux parties principales. Dans un premier temps, le modèle de signal de SRIR sous-jacent est décrit en s'inspirant directement des approches historiques dans les domaines de la réverbération artificielle et le traitement de SMA, tout en y proposant plusieurs extensions. Le modèle de signal est alors exploité afin de définir les méthodes d'analyse qui forment le noyau du cadre de traitement-manipulation final. Ces méthodes se focalisent particulièrement sur (a) l'identification du "temps de mélange" décrivant le moment de transition entre les premières réflexions et la réverbération tardive, (b) la génération d'une cartographie temps-espace des premières réflexions, et (c) l'estimation des paramètres régissant la décroissance exponentielle de l'enveloppe d'énergie de la réverbération tardive, à la fois en fréquence et en direction. La définition d'une procédure de génération de représentations directionnelles de SRIR (directional room impulse response, DRIR) est aussi nécessaire pour pouvoir prendre en compte la dépendance directionnelle de ces propriétés. En seconde partie, les paramètres de modélisation explicités par les méthodes d'analyse sont exploités à des fins soit de traitement (c'est-à-dire tenter de corriger certaines des limitations inhérentes au processus de mesure par SMA), soit de manipulation ou de modification plus créative de la SRIR. Deux méthodes de traitement sont développées en particulier : (1) une procedure d'atténuation de bruits non stationnaires agissant directement sur les signaux de mesure par balayages de fréquence exponentiels (exponential sweep method, ESM) répétés, et (2) une technique de débruitage basée sur une extrapolation et une resynthèse de la queue de réverbération tardive. Les descriptions théoriques ainsi complétées, les principales méthodes d'analyse ainsi que la génération de DRIR et le débruitage sont sujets à une série de tests de validation au cours desquels des SRIR simulées sont utilisées afin d'évaluer la performance, les limitations, et la paramétrisation des différentes techniques. Ces sous-études permettent à chaque méthode d'être vérifiée individuellement, et donnent un aperçu détaillé du fonctionnement interne des outils d'analyse. Enfin, une vue d'ensemble de l'environnement d'analyse-traitement-manipulation est obtenue [...]
The use of spatial room impulse responses (SRIR) for the reproduction of three-dimensional reverberation effects through multi-channel convolution over immersive surround-sound loudspeaker systems has become commonplace within the last few years, thanks in large part to the commercial availability of various spherical microphone arrays (SMA) as well as a constant increase in computing power. This use has in turn created a demand for analysis and treatment techniques not only capable of ensuring the faithful reproduction of the measured reverberation effect, but which could also be used to control various modifications of the SRIR in a more "creative" approach, as is often encountered in the production of immersive musical performances and installations. Within this context, the principal objective of the current thesis is the definition of a complete space-time-frequency framework for the analysis, treatment, and manipulation of SRIRs. The analysis tools should lead to an in-depth model allowing for measurements to first be treated with respect to their inherent limitations (measurement conditions, background noise, etc.), as well as offering the ability to modify different characteristics of the final reverberation effect described by the SRIR. These characteristics can be either completely objective, even physical, or otherwise informed by knowledge of human auditory perception with regard to room acoustics. The theoretical work in this research project is therefore presented in two main parts. First, the underlying SRIR signal model is described, heavily inspired by the historical approaches from the fields of artificial reverberation synthesis and SMA signal processing, while at the same time (incrementally) extending both. The signal model is then used to define the analysis methods that form the core of the final framework; these focus particularly on (a) identifying the "mixing time" that defines the moment of transition between the early reflection and late reverberation regimes, (b) obtaining a space-time cartography of the early reflections, and (c) estimating the frequency- and direction-dependent properties of the late reverberation's exponential energy decay envelope. In order to account for the directional dependence of these properties, a procedure for generating directional SRIR representations (i.e. directional room impulse responses, DRIR) that guarantee the preservation of certain fundamental reverberation properties must also be defined. In the second part, the model parameters made explicit by the analysis methods are exploited in order to either treat (i.e. attempt to correct some of the inevitable limitations inherent to the SMA measurement process) or more creatively manipulate and modify the SRIR. Two treatment methods in particular are developed in this thesis: (1) a pre-analysis procedure acting directly on repeated exponential sweep method (ESM) SMA measurement signals in an attempt to simultaneously increase the resulting SRIR's signal-to-noise ratio (SNR) while reducing its vulnerability to non-stationary noise events, and (2) a post-analysis denoising technique based on replacing the SRIR's background noise floor with a resynthesized extrapolation of the late reverberation tail. The theoretical descriptions thus complete, the main analysis methods as well as the DRIR generation and the denoising treatment procedures are then subjected to a series of validation tests, wherein simulated SRIRs (or parts thereof) are used to evaluate the performance, discuss the limitations, and parameterize the implementation of the different techniques. These sub-studies allow each method to be individually verified, resulting in a comprehensive investigation into the inner workings of the analysis toolbox (as well as the denoising process). Finally, to provide a concluding overview of the complete analysis-treatment-manipulation framework, similar studies are carried out using examples of real-world [...]
APA, Harvard, Vancouver, ISO, and other styles
24

Huvet, Chloé. "D’Un nouvel espoir (1977) à La Revanche des Sith (2005) : écriture musicale et traitement de la partition au sein du complexe audio-visuel dans la saga Star Wars." Thèse, 2017. http://hdl.handle.net/1866/20076.

Full text
APA, Harvard, Vancouver, ISO, and other styles
We offer discounts on all premium plans for authors whose works are included in thematic literature selections. Contact us to get a unique promo code!

To the bibliography