Accedi

Bibliografie tematiche / Apprentissage automatique – Musique

Letteratura scientifica selezionata sul tema "Apprentissage automatique – Musique"

Autore: Grafiati

Pubblicato: 1 giugno 2024

Cita una fonte nei formati APA, MLA, Chicago, Harvard e in molti altri stili

Scegli il tipo di fonte:

Consulta la lista di attuali articoli, libri, tesi, atti di convegni e altre fonti scientifiche attinenti al tema "Apprentissage automatique – Musique".

Accanto a ogni fonte nell'elenco di riferimenti c'è un pulsante "Aggiungi alla bibliografia". Premilo e genereremo automaticamente la citazione bibliografica dell'opera scelta nello stile citazionale di cui hai bisogno: APA, MLA, Harvard, Chicago, Vancouver ecc.

Puoi anche scaricare il testo completo della pubblicazione scientifica nel formato .pdf e leggere online l'abstract (il sommario) dell'opera se è presente nei metadati.

Indice

Tesi

Tesi sul tema "Apprentissage automatique – Musique":

1

Fradet, Nathan. "Apprentissage automatique pour la modélisation de musique symbolique". Electronic Thesis or Diss., Sorbonne université, 2024. https://accesdistant.sorbonne-universite.fr/login?url=https://theses-intra.sorbonne-universite.fr/2024SORUS037.pdf.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

La modélisation musicale symbolique représente les tâches effectuées par les modèles d'apprentissage automatique avec la musicale symbolique, parmi lesquelles figurent la génération de musique ou la récupération d'informations musicales. La modélisation musicale symbolique est souvent effectuée avec des modèles séquentiels qui traitent les données sous forme de séquences d'éléments discrets appelés tokens. Cette thèse étudie comment la musique symbolique peut être sérialisée, et quels sont les impacts des différentes manières de le faire, sur les performances et l'efficacité des modèles. Les défis actuels incluent le manque de logiciel pour effectuer cette étape, la faible efficacité du modèle et les tokens inexpressifs. Nous relevons ces défis en : 1) développant une bibliothèque logicielle complète, flexible et facile à utiliser permettant de tokeniser la musique symbolique ; 2) analyser l'impact de diverses stratégies de tokenisation sur les performances des modèles ; 3) augmenter les performances et l'efficacité des modèles en exploitant de vastes vocabulaires musicaux grâce à l'utilisation du codage par paires d'octets ; 4) construire le premier modèle à grande échelle de génération de musique symbolique
Symbolic music modeling (SMM) represents the tasks performed by Deep Learning models on the symbolic music modality, among which are music generation or music information retrieval. SMM is often handled with sequential models that process data as sequences of discrete elements called tokens. This thesis study how symbolic music can be tokenized, and what are the impacts of the different ways to do it impact models performances and efficiency. Current challenges include the lack of software to perform this step, poor model efficiency and inexpressive tokens. We address these challenges by: 1) developing a complete, flexible and easy to use software library allowing to tokenize symbolic music; 2) analyzing the impact of various tokenization strategies on model performances; 3) increasing the performance and efficiency of models by leveraging large music vocabularies with the use of byte pair encoding; 4) building the first large-scale model for symbolic music generation

2

Jacques, Céline. "Méthodes d'apprentissage automatique pour la transcription automatique de la batterie". Electronic Thesis or Diss., Sorbonne université, 2019. http://www.theses.fr/2019SORUS150.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Cette thèse se concentre sur les méthodes d’apprentissage pour la transcription automatique de la batterie. Elles sont basées sur un algorithme de transcription utilisant une méthode de décomposition non-négative, la NMD. Cette thèse soulève deux principales problématiques : l’adaptation des méthodes au signal analysé et l’utilisation de l’apprentissage profond. La prise en compte des informations du signal analysé dans le modèle peut être réalisée par leur introduction durant les étapes de décomposition. Une première approche est de reformuler l’étape de décomposition dans un contexte probabiliste pour faciliter l’introduction d’informations a posteriori avec des méthodes comme la SI-PLCA et la NMD statistique. Une deuxième approche est d’implémenter directement dans la NMD une stratégie d’adaptation : l’application de filtres modelables aux motifs pour modéliser les conditions d’enregistrement ou l’adaptation des motifs appris directement au signal en appliquant de fortes contraintes pour conserver leur signification physique. La deuxième approche porte sur la sélection des segments de signaux à analyser. Il est préférable d’analyser les segments où au moins un événement percussif a lieu. Un détecteur d’onsets basé sur un réseau de neurones convolutif (CNN) est adapté pour détecter uniquement les onsets percussifs. Les résultats obtenus étant très intéressants, le détecteur est entraîné à ne détecter qu’un seul instrument permettant la réalisation de la transcription des trois principaux instruments de batterie avec trois CNN. Finalement, l’utilisation d’un CNN multi-sorties est étudiée pour transcrire la partie de batterie avec un seul réseau
This thesis focuses on learning methods for automatic transcription of the battery. They are based on a transcription algorithm using a non-negative decomposition method, NMD. This thesis raises two main issues: the adaptation of methods to the analyzed signal and the use of deep learning. Taking into account the information of the signal analyzed in the model can be achieved by their introduction during the decomposition steps. A first approach is to reformulate the decomposition step in a probabilistic context to facilitate the introduction of a posteriori information with methods such as SI-PLCA and statistical NMD. A second approach is to implement an adaptation strategy directly in the NMD: the application of modelable filters to the patterns to model the recording conditions or the adaptation of the learned patterns directly to the signal by applying strong constraints to preserve their physical meaning. The second approach concerns the selection of the signal segments to be analyzed. It is best to analyze segments where at least one percussive event occurs. An onset detector based on a convolutional neural network (CNN) is adapted to detect only percussive onsets. The results obtained being very interesting, the detector is trained to detect only one instrument allowing the transcription of the three main drum instruments with three CNNs. Finally, the use of a CNN multi-output is studied to transcribe the part of battery with a single network

3

Cont, Arshia. "Modélisation de l'anticipation musicale : du temps de la musique vers la musique du temps". Phd thesis, Université Pierre et Marie Curie - Paris VI, 2008. http://tel.archives-ouvertes.fr/tel-00417565.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Cette thèse étudie l'anticipation musicale, à la fois comme un processus cognitif et comme un principe de conception pour des applications d'informatique musicale et d'extraction de données musicales. Dans cette étude, nous reformulons le problème de modélisation d'anticipation abordé dans la littérature de la cognition musicale, à celui de modélisation anticipative, un principe de conception cognitive pour modéliser des systèmes artificiels. Nous proposons des modèles anticipatifs concernant trois préoccupations principales de l'attente musicale : quoi attendre?, comment attendre?, et quand attendre?.
Dans le traitement de la première question, nous introduisons un cadre mathématique nommé géométrie d'informations musicales combinant la théorie de l'information, la géométrie différentielle, et l'apprentissage statistique pour représenter les contenus pertinents de l'informations musicales. La deuxième question est abordée comme un problème d'apprentissage automatique des stratégies décisionnelles dans un environnement, en employant les méthodes d'apprentissage interactif. Nous proposons pour la troisième question, une nouvelle conception du problème de synchronisation temps réel entre une partition symbolique et un musicien. Ceci nous ramène à Antescofo, un outils préliminaire d'écriture du temps et de l'interaction dans l'informatique musicale. Malgré la variété des sujets abordés dans cette thèse, la conception anticipative est la facture commune entre toutes les propositions avec les prémices de réduire la complexité structurelle et computationnelle de modélisation, et d'aider à aborder des problèmes complexes dans l'informatique musicale.

4

Essid, Slim. "Classification automatique des signaux audio-fréquences : reconnaissance des instruments de musique". Phd thesis, Université Pierre et Marie Curie - Paris VI, 2005. http://pastel.archives-ouvertes.fr/pastel-00002738.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

L'objet de cette thèse est de contribuer à améliorer l'identification automatique des instruments de musique dans des contextes réalistes, (sur des solos de musique, mais également sur des pièces multi-instrumentales). Nous abordons le problème suivant une approche de classification automatique en nous efforçant de rechercher des réalisations performantes des différents modules constituant le système que nous proposons. Nous adoptons un schéma de classification hiérarchique basé sur des taxonomies des instruments et des mélanges d'instruments. Ces taxonomies sont inférées au moyen d'un algorithme de clustering hiérarchique exploitant des distances probabilistes robustes qui sont calculées en utilisant une méthode à noyau. Le système exploite un nouvel algorithme de sélection automatique des attributs pour produire une description efficace des signaux audio qui, associée à des machines à vecteurs supports, permet d'atteindre des taux de reconnaissance élevés sur des pièces sonores reflétant la diversité de la pratique musicale et des conditions d'enregistrement rencontrées dans le monde réel. Notre architecture parvient ainsi à identifier jusqu'à quatre instruments joués simultanément, à partir d'extraits de jazz incluant des percussions.

5

Rousseaux, Francis. "Une contribution de l'intelligence artificielle et de l'apprentissage symbolique automatique à l'élaboration d'un modèle d'enseignement de l'écoute musicale". Phd thesis, Université Pierre et Marie Curie - Paris VI, 1990. http://tel.archives-ouvertes.fr/tel-00417579.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Pour un chercheur en apprentissage symbolique automatique amateur de musique, formaliser certains aspects de la représentation, de la pratique et de la pédagogie musicale est un thème séduisant. Mieux, ce thème peut prendre place au sein des préoccupations et des ambitions de l'intelligence artificielle. En effet, s'il est important que l'intelligence artificielle se renforce dans ses domaines de prédilection, il lui reste des références à élargir et des champs à gagner, comme ceux que lui soumet la problématique musicale.
C'est ainsi que ce thème devient un objectif d'études et de recherches : mais dans cette optique, il est nécessaire de prendre en compte l'état de l'art en informatique musicale, et d'écouter les besoins manifestés par les musiciens, afin de prendre pied sur une réelle communauté d'intérêts entre les deux disciplines.
En toute hypothèse, la musique est un objet abstrait dont il existe plusieurs représentations, aucune n'étant complète ni générale, et chacune possédant des propriétés spécifiques. Qui plus est, ces représentations ont tendance à évoluer, naître et mourir au gré des besoins des musiciens, même si la représentation sonore reste essentielle et par définition indissociable de l'objet abstrait : mais il faut bien admettre que le son musical n'est pas seul à évoquer la musique, et que si l'homme éprouve le besoin d'inventer des représentations pour mieux s'approprier le phénomène musical, il peut être enrichissant d'examiner la transposition de ce comportement aux machines.
On peut certes isoler une de ces représentations, la traduire informatiquement et lui dédier des outils : c'est ainsi que de nombreux systèmes informatiques abordent la musique. Mais il existe une approche plus typique de l'intelligence artificielle, qui consiste à chercher à atteindre l'objet abstrait à travers l'ensemble de ses représentations et de leurs relations : pour un système informatique, faire preuve d'intelligence dans ce contexte, c'est utiliser cette diversité et cette multiplicité de représentation; c'est savoir s'appuyer sur une réalité mouvante et se déplacer dans un univers d'abstractions.
Mais les représentations ne prennent leur sens qu'avec ceux qui communiquent à travers elles, qu'avec les activités qu'elles engendrent. On peut alors imaginer un système qui constituerait un véritable lieu de rencontre, de réflexion, de création, en un mot de communication : car la musique est avant tout un médium de communication. Mais quelle est la nature de ce qu'on pourra communiquer à travers un tel système ? Par exemple, on pourra s'exercer aux pratiques musicales, expérimenter de nouveaux rapports entre les représentations, en un mot s'approprier le médium musical lui-même.
Mais alors, on a besoin d'un système qui sache témoigner de ces rencontres, plus précisément qui apprenne à en témoigner; c'est là notre définition de l'apprentissage dans le contexte : on dira qu'un système apprend s'il témoigne, et éventuellement s'adapte à un univers de communication musicale. Sans cette exigence, la valeur de la communication est perdue : en effet les parties prenantes quittent le système avec leur nouvelle richesse, quelle que soit la réussite de la médiation. Aussi, l'enjeu pour un système apprenti consiste à retourner un témoignage aux musiciens, aux pédagogues et aux informaticiens, afin qu'ils puissent en tirer profit : bien entendu, on exigera de ce témoignage qu'il produise de la connaissance utile, sans se contenter de cumuls d'événements ou de faits ordonnés historiquement.
Ainsi, à travers un enseignement ouvert, il s'agira pour des élèves d'appréhender et d'expérimenter le médium musical, d'enrichir leurs connaissances et d'obtenir des explications. Pour des enseignants, il s'agira de créer et d'organiser cette médiation, et de rendre des oracles pédagogiques au système. Mais l'intelligence artificielle et l'apprentissage symbolique automatique sont les sciences de l'explication : il faut mettre en jeu la dimension cognitive qui permettra d'expertiser l'adéquation du lieu de rencontre; il faut se placer au cœur des besoins et des préoccupations des enseignants et des élèves, en tentant de formaliser les théories cognitives de la musique. On pourra même inventer des représentations à vocations cognitive et explicative : à terme, un système construit sur un tel modèle pourrait bien être capable de faire lui-même des découvertes dans ce domaine.

6

Bayle, Yann. "Apprentissage automatique de caractéristiques audio : application à la génération de listes de lecture thématiques". Thesis, Bordeaux, 2018. http://www.theses.fr/2018BORD0087/document.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Ce mémoire de thèse de doctorat présente, discute et propose des outils de fouille automatique de mégadonnées dans un contexte de classification supervisée musical.L'application principale concerne la classification automatique des thèmes musicaux afin de générer des listes de lecture thématiques.Le premier chapitre introduit les différents contextes et concepts autour des mégadonnées musicales et de leur consommation.Le deuxième chapitre s'attelle à la description des bases de données musicales existantes dans le cadre d'expériences académiques d'analyse audio.Ce chapitre introduit notamment les problématiques concernant la variété et les proportions inégales des thèmes contenus dans une base, qui demeurent complexes à prendre en compte dans une classification supervisée.Le troisième chapitre explique l'importance de l'extraction et du développement de caractéristiques audio et musicales pertinentes afin de mieux décrire le contenu des éléments contenus dans ces bases de données.Ce chapitre explique plusieurs phénomènes psychoacoustiques et utilise des techniques de traitement du signal sonore afin de calculer des caractéristiques audio.De nouvelles méthodes d'agrégation de caractéristiques audio locales sont proposées afin d'améliorer la classification des morceaux.Le quatrième chapitre décrit l'utilisation des caractéristiques musicales extraites afin de trier les morceaux par thèmes et donc de permettre les recommandations musicales et la génération automatique de listes de lecture thématiques homogènes.Cette partie implique l'utilisation d'algorithmes d'apprentissage automatique afin de réaliser des tâches de classification musicale.Les contributions de ce mémoire sont résumées dans le cinquième chapitre qui propose également des perspectives de recherche dans l'apprentissage automatique et l'extraction de caractéristiques audio multi-échelles
This doctoral dissertation presents, discusses and proposes tools for the automatic information retrieval in big musical databases.The main application is the supervised classification of musical themes to generate thematic playlists.The first chapter introduces the different contexts and concepts around big musical databases and their consumption.The second chapter focuses on the description of existing music databases as part of academic experiments in audio analysis.This chapter notably introduces issues concerning the variety and unequal proportions of the themes contained in a database, which remain complex to take into account in supervised classification.The third chapter explains the importance of extracting and developing relevant audio features in order to better describe the content of music tracks in these databases.This chapter explains several psychoacoustic phenomena and uses sound signal processing techniques to compute audio features.New methods of aggregating local audio features are proposed to improve song classification.The fourth chapter describes the use of the extracted audio features in order to sort the songs by themes and thus to allow the musical recommendations and the automatic generation of homogeneous thematic playlists.This part involves the use of machine learning algorithms to perform music classification tasks.The contributions of this dissertation are summarized in the fifth chapter which also proposes research perspectives in machine learning and extraction of multi-scale audio features

7

Bel, Bernard. "Acquisition et représentation de connaissances en musique". Phd thesis, Aix-Marseille 3, 1990. http://tel.archives-ouvertes.fr/tel-00009692.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Cette étude traite de la représentation informatique de connaissances en musique, abordée à partir de deux expériences en grandeur réelle. La première est une méthode d'acquisition de connaissances en ethnographie mettant en interaction un expert (le musicien), un analyste (le musicologue) et une machine dans une situation d'apprentissage. Les schémas d'improvisation des musiciens sont identifiés et exprimés à l'aide de règles de production dans un formalisme dérivé des grammaires génératives et des langages de formes. Un algorithme déterministe de test d'appartenance de chaînes arbitraires au langage défini par une grammaire (sensible au contexte) est présenté, ainsi qu'une technique d'inférence inductive de langages réguliers permettant l'acquisition automatique de connaissances lexicales et syntaxiques. La seconde expérience s'insère dans l'élaboration d'un environnement de composition musicale assistée par ordinateur. Le problème est ici la représentation du temps dans une structure discrète d'“objets temporels”, et plus généralement la synchronisation de processus parallèles. Une méthode est proposée pour la détermination d'une structure à partir de données incomplètes sur la synchronisation des objets. La notion d'“objet sonore” est ensuite explicitée formellement. Un algorithme efficace permet l'instanciation des objets sonores affectés à une structure en tenant compte des contraintes liées à leurs propriétés métriques et topologiques.

8

Carsault, Tristan. "Introduction of musical knowledge and qualitative analysis in chord extraction and prediction tasks with machine learning. : application to human-machine co-improvisation". Electronic Thesis or Diss., Sorbonne université, 2020. http://www.theses.fr/2020SORUS247.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Cette thèse étudie l’impact de l’introduction de propriétés musicales dans les modèles d’apprentissage machine pour l’extraction et l’inférence de structures musicales. De plus, elle traite de l’utilisation des connaissances musicales pour effectuer des évaluations qualitatives des résultats. Dans ce travail, nous nous concentrons sur les accords musicaux puisque ce sont des structures musicales fréquemment utilisées pour décrire les progressions harmoniques dans la musique occidentale. Ainsi, parmi la variété des tâches rencontrées dans le domaine de la recherche d’informations musicales (MIR), les deux principales tâches que nous abordons sont l’extraction automatique d’accords (ACE) et l’inférence de séquences de label d’accords. Dans le cas des accords musicaux, il existe de fortes relations inhérentes d’un point de vue hiérarchiques et fonctionnelles. En effet, même si deux accords n’appartiennent pas à la même classe, ils peuvent partager la même fonction harmonique au sein d’une progression d’accords. En outre, de nombreuses applications créatives bénéficieraient d’un niveau plus élevé de compréhension harmonique plutôt que d’une précision accrue dans la tâche de classification. Nous avons donc développé un analyseur spécifiquement adapté qui se concentre sur les relations fonctionnelles entre les accords pour distinguer les erreurs fortes et faibles. Nous définissons les erreurs faibles comme une mauvaise classification qui conserve la pertinence en termes de fonction harmonique. Cela reflète le fait que, contrairement aux tâches de transcription strict, l’extraction de caractéristiques musicales de haut niveau est une tâche plutôt subjective. Un de nos cas d’application est le développement d’un logiciel qui interagit avec un musicien en temps réel en déduisant les progressions d’accords attendues. Pour atteindre cet objectif, nous avons divisé le projet en deux tâches principales : un module d’écoute et un module de génération symbolique. Le module d’écoute extrait la structure musicale jouée par le musicien, tandis que le module de génération prédit les séquences musicales en fonction des accords extraits. Dans la première partie de cette thèse, nous visons le développement d’un système ACE qui pourrait émuler le processus de découverte de la structure musicale, tel qu’il est exécuté par les musiciens dans des contextes d’improvisation. La plupart des systèmes ACE sont construits sur l’idée d’extraire des caractéristiques des signaux audio bruts et, ensuite, d’utiliser ces caractéristiques pour construire un classificateur d’accords. Nous distinguons deux grandes familles d’approches, les modèles basés sur les règles musicales ou les modèles statistiques. Dans ce travail, nous identifions les inconvénients de l’utilisation des modèles statistiques pour les tâches ACE. Ensuite, nous proposons d’introduire les connaissances musicales préalables afin de rendre compte des relations inhérentes entre les accords directement à l’intérieur de la fonction de coût des méthodes d’apprentissage machine. Dans la deuxième partie de cette thèse, nous nous concentrons sur l’apprentissage de relations de plus haut niveau à l’intérieur de séquences d’accords extraites, en vue de développer des modèles capables de générer des suites potentielles de séquences d’accords
This thesis investigates the impact of introducing musical properties in machine learning models for the extraction and inference of musical features. Furthermore, it discusses the use of musical knowledge to perform qualitative evaluations of the results. In this work, we focus on musical chords since these mid-level features are frequently used to describe harmonic progressions in Western music. Hence, amongs the variety of tasks encountered in the field of Music Information Retrieval (MIR), the two main tasks that we address are the Automatic Chord Extraction (ACE) and the inference of symbolic chord sequences. In the case of musical chords, there exists inherent strong hierarchical and functional relationships. Indeed, even if two chords do not belong to the same class, they can share the same harmonic function within a chord progression. Hence, we developed a specifically-tailored analyzer that focuses on the functional relations between chords to distinguish strong and weak errors. We define weak errors as a misclassification that still preserves the relevance in terms of harmonic function. This reflects the fact that, in contrast to strict transcription tasks, the extraction of high-level musical features is a rather subjective task. Moreover, many creative applications would benefit from a higher level of harmonic understanding rather than an increased accuracy of label classification. For instance, one of our application case is the development of a software that interacts with a musician in real-time by inferring expected chord progressions. In order to achieve this goal, we divided the project into two main tasks : a listening module and a symbolic generation module. The listening module extracts the musical structure played by the musician, where as the generative module predicts musical sequences based on the extracted features. In the first part of this thesis, we target the development of an ACE system that could emulate the process of musical structure discovery, as performed by musicians in improvisation contexts. Most ACE systems are built on the idea of extracting features from raw audio signals and, then, using these features to construct a chord classifier. This entail two major families of approaches, as either rule-based or statistical models. In this work, we identify drawbacks in the use of statistical models for ACE tasks. Then, we propose to introduce prior musical knowledge in order to account for the inherent relationships between chords directly inside the loss function of learning methods. In the second part of this thesis, we focus on learning higher-level relationships inside sequences of extracted chords in order to develop models with the ability to generate potential continuations of chord sequences. In order to introduce musical knowledge in these models, we propose both new architectures, multi-label training methods and novel data representations

9

Nistal, Hurlé Javier. "Exploring generative adversarial networks for controllable musical audio synthesis". Electronic Thesis or Diss., Institut polytechnique de Paris, 2022. http://www.theses.fr/2022IPPAT009.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Les synthétiseurs audio sont des instruments de musique électroniques qui génèrent des sons artificiels sous un certain contrôle paramétrique. Alors que les synthétiseurs ont évolué depuis leur popularisation dans les années 70, deux défis fondamentaux restent encore non résolus: 1) le développement de systèmes de synthèse répondant à des paramètres sémantiquement intuitifs; 2) la conception de techniques de synthèse «universelles», indépendantes de la source à modéliser. Cette thèse étudie l’utilisation des réseaux adversariaux génératifs (ou GAN) pour construire de tels systèmes. L’objectif principal est de rechercher et de développer de nouveaux outils pour la production musicale, qui oﬀrent des moyens intuitifs de manipulation du son, par exemple en contrôlant des paramètres qui répondent aux propriétés perceptives du son et à d’autres caractéristiques. Notre premier travail étudie les performances des GAN lorsqu’ils sont entraînés sur diverses représentations de signaux audio. Ces expériences comparent différentes formes de données audio dans le contexte de la synthèse sonore tonale. Les résultats montrent que la représentation magnitude-fréquence instantanée et la transformée de Fourier à valeur complexe obtiennent les meilleurs résultats. En s’appuyant sur ce résultat, notre travail suivant présente DrumGAN, un synthétiseur audio de sons percussifs. En conditionnant le modèle sur des caractéristiques perceptives décrivant des propriétés timbrales de haut niveau, nous démontrons qu’un contrôle intuitif peut être obtenu sur le processus de génération. Ce travail aboutit au développement d’un plugin VST générant de l’audio haute résolution. La rareté des annotations dans les ensembles de données audio musicales remet en cause l’application de méthodes supervisées pour la génération conditionnelle. On utilise une approche de distillation des connaissances pour extraire de telles annotations à partir d’un système d’étiquetage audio préentraîné. DarkGAN est un synthétiseur de sons tonaux qui utilise les probabilités de sortie d’un tel système (appelées « étiquettes souples ») comme informations conditionnelles. Les résultats montrent que DarkGAN peut répondre modérément à de nombreux attributs intuitifs, même avec un conditionnement d’entrée hors distribution. Les applications des GAN à la synthèse audio apprennent généralement à partir de données de spectrogramme de taille fixe. Nous abordons cette limitation en exploitant une méthode auto-supervisée pour l’apprentissage de caractéristiques discrètes à partir de données séquentielles. De telles caractéristiques sont utilisées comme entrée conditionnelle pour fournir au modèle des informations dépendant du temps par étapes. La cohérence globale est assurée en fixant le bruit d’entrée z (caractéristique en GANs). Les résultats montrent que, tandis que les modèles entraînés sur un schéma de taille fixe obtiennent une meilleure qualité et diversité audio, les nôtres peuvent générer avec compétence un son de n’importe quelle durée. Une direction de recherche intéressante est la génération d’audio conditionnée par du matériel musical préexistant. Nous étudions si un générateur GAN, conditionné sur des signaux audio musicaux hautement compressés, peut générer des sorties ressemblant à l’audio non compressé d’origine. Les résultats montrent que le GAN peut améliorer la qualité des signaux audio par rapport aux versions MP3 pour des taux de compression très élevés (16 et 32 kbit/s). En conséquence directe de l’application de techniques d’intelligence artificielle dans des contextes musicaux, nous nous demandons comment la technologie basée sur l’IA peut favoriser l’innovation dans la pratique musicale. Par conséquent, nous concluons cette thèse en offrant une large perspective sur le développement d’outils d’IA pour la production musicale, éclairée par des considérations théoriques et des rapports d’utilisation d’outils d’IA dans le monde réel par des artistes professionnels
Audio synthesizers are electronic musical instruments that generate artificial sounds under some parametric control. While synthesizers have evolved since they were popularized in the 70s, two fundamental challenges are still unresolved: 1) the development of synthesis systems responding to semantically intuitive parameters; 2) the design of "universal," source-agnostic synthesis techniques. This thesis researches the use of Generative Adversarial Networks (GAN) towards building such systems. The main goal is to research and develop novel tools for music production that afford intuitive and expressive means of sound manipulation, e.g., by controlling parameters that respond to perceptual properties of the sound and other high-level features. Our first work studies the performance of GANs when trained on various common audio signal representations (e.g., waveform, time-frequency representations). These experiments compare different forms of audio data in the context of tonal sound synthesis. Results show that the Magnitude and Instantaneous Frequency of the phase and the complex-valued Short-Time Fourier Transform achieve the best results. Building on this, our following work presents DrumGAN, a controllable adversarial audio synthesizer of percussive sounds. By conditioning the model on perceptual features describing high-level timbre properties, we demonstrate that intuitive control can be gained over the generation process. This work results in the development of a VST plugin generating full-resolution audio and compatible with any Digital Audio Workstation (DAW). We show extensive musical material produced by professional artists from Sony ATV using DrumGAN. The scarcity of annotations in musical audio datasets challenges the application of supervised methods to conditional generation settings. Our third contribution employs a knowledge distillation approach to extract such annotations from a pre-trained audio tagging system. DarkGAN is an adversarial synthesizer of tonal sounds that employs the output probabilities of such a system (so-called “soft labels”) as conditional information. Results show that DarkGAN can respond moderately to many intuitive attributes, even with out-of-distribution input conditioning. Applications of GANs to audio synthesis typically learn from fixed-size two-dimensional spectrogram data analogously to the "image data" in computer vision; thus, they cannot generate sounds with variable duration. In our fourth paper, we address this limitation by exploiting a self-supervised method for learning discrete features from sequential data. Such features are used as conditional input to provide step-wise time-dependent information to the model. Global consistency is ensured by fixing the input noise z (characteristic in adversarial settings). Results show that, while models trained on a fixed-size scheme obtain better audio quality and diversity, ours can competently generate audio of any duration. One interesting direction for research is the generation of audio conditioned on preexisting musical material, e.g., the generation of some drum pattern given the recording of a bass line. Our fifth paper explores a simple pretext task tailored at learning such types of complex musical relationships. Concretely, we study whether a GAN generator, conditioned on highly compressed MP3 musical audio signals, can generate outputs resembling the original uncompressed audio. Results show that the GAN can improve the quality of the audio signals over the MP3 versions for very high compression rates (16 and 32 kbit/s). As a direct consequence of applying artificial intelligence techniques in musical contexts, we ask how AI-based technology can foster innovation in musical practice. Therefore, we conclude this thesis by providing a broad perspective on the development of AI tools for music production, informed by theoretical considerations and reports from real-world AI tool usage by professional artists

10

Françoise, Jules. "Motion-sound Mapping By Demonstration". Thesis, Paris 6, 2015. http://www.theses.fr/2015PA066105/document.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Le design du mapping (ou couplage) entre mouvement et son est essentiel à la création de systèmes interactifs sonores et musicaux. Cette thèse propose une approche appelée mapping par démonstration qui permet aux utilisateurs de créer des interactions entre mouvement et son par des exemples de gestes effectués pendant l'écoute. Le mapping par démonstration est un cadre conceptuel et technique pour la création d'interactions sonores à partir de démonstrations d'associations entre mouvement et son. L'approche utilise l'apprentissage automatique interactif pour construire le mapping à partir de démonstrations de l'utilisateur. Nous nous proposons d’exploiter la nature générative des modèles probabilistes, de la reconnaissance de geste continue à la génération de paramètres sonores. Nous avons étudié plusieurs modèles probabilistes, à la fois des modèles instantanés (Modèles de Mélanges Gaussiens) et temporels (Modèles de Markov Cachés) pour la reconnaissance, la régression, et la génération de paramètres sonores. Nous avons adopté une perspective d’apprentissage automatique interactif, avec un intérêt particulier pour l’apprentissage à partir d'un nombre restreint d’exemples et l’inférence en temps réel. Les modèles représentent soit uniquement le mouvement, soit intègrent une représentation conjointe des processus gestuels et sonores, et permettent alors de générer les trajectoires de paramètres sonores continûment depuis le mouvement. Nous avons exploré un ensemble d’applications en pratique du mouvement et danse, en design d’interaction sonore, et en musique
Designing the relationship between motion and sound is essential to the creation of interactive systems. This thesis proposes an approach to the design of the mapping between motion and sound called Mapping-by-Demonstration. Mapping-by-Demonstration is a framework for crafting sonic interactions from demonstrations of embodied associations between motion and sound. It draws upon existing literature emphasizing the importance of bodily experience in sound perception and cognition. It uses an interactive machine learning approach to build the mapping iteratively from user demonstrations. Drawing upon related work in the fields of animation, speech processing and robotics, we propose to fully exploit the generative nature of probabilistic models, from continuous gesture recognition to continuous sound parameter generation. We studied several probabilistic models under the light of continuous interaction. We examined both instantaneous (Gaussian Mixture Model) and temporal models (Hidden Markov Model) for recognition, regression and parameter generation. We adopted an Interactive Machine Learning perspective with a focus on learning sequence models from few examples, and continuously performing recognition and mapping. The models either focus on movement, or integrate a joint representation of motion and sound. In movement models, the system learns the association between the input movement and an output modality that might be gesture labels or movement characteristics. In motion-sound models, we model motion and sound jointly, and the learned mapping directly generates sound parameters from input movements. We explored a set of applications and experiments relating to real-world problems in movement practice, sonic interaction design, and music. We proposed two approaches to movement analysis based on Hidden Markov Model and Hidden Markov Regression, respectively. We showed, through a use-case in Tai Chi performance, how the models help characterizing movement sequences across trials and performers. We presented two generic systems for movement sonification. The first system allows users to craft hand gesture control strategies for the exploration of sound textures, based on Gaussian Mixture Regression. The second system exploits the temporal modeling of Hidden Markov Regression for associating vocalizations to continuous gestures. Both systems gave birth to interactive installations that we presented to a wide public, and we started investigating their interest to support gesture learning

Più fonti