Dissertations / Theses on the topic 'Audio data'
Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles
Consult the top 50 dissertations / theses for your research on the topic 'Audio data.'
Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.
You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.
Browse dissertations / theses on a wide variety of disciplines and organise your bibliography correctly.
Lundberg, Anton. "Data-Driven Procedural Audio : Procedural Engine Sounds Using Neural Audio Synthesis." Thesis, KTH, Datavetenskap, 2020. http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-280132.
Full textDet i dagsläget dominerande tillvägagångssättet för rendering av ljud i interaktivamedia, såsom datorspel och virtual reality, innefattar uppspelning av statiska ljudfiler. Detta tillvägagångssätt saknar flexibilitet och kräver hantering av stora mängder ljuddata. Ett alternativt tillvägagångssätt är procedurellt ljud, vari ljudmodeller styrs för att generera ljud i realtid. Trots sina många fördelar används procedurellt ljud ännu inte i någon vid utsträckning inom kommersiella produktioner, delvis på grund av att det genererade ljudet från många föreslagna modeller inte når upp till industrins standarder. Detta examensarbete undersöker hur procedurellt ljud kan utföras med datadrivna metoder. Vi gör detta genom att specifikt undersöka metoder för syntes av bilmotorljud baserade på neural ljudsyntes. Genom att bygga på en nyligen publicerad metod som integrerar digital signalbehandling med djupinlärning, kallad Differentiable Digital Signal Processing (DDSP), kan vår metod skapa ljudmodeller genom att träna djupa neurala nätverk att rekonstruera inspelade ljudexempel från tolkningsbara latenta prediktorer. Vi föreslår en metod för att använda fasinformation från motorers förbränningscykler, samt en differentierbar metod för syntes av transienter. Våra resultat visar att DDSP kan användas till procedurella motorljud, men mer arbete krävs innan våra modeller kan generera motorljud utan oönskade artefakter samt innan de kan användas i realtidsapplikationer. Vi diskuterar hur vårt tillvägagångssätt kan vara användbart inom procedurellt ljud i mer generella sammanhang, samt hur vår metod kan tillämpas på andra ljudkällor
Rydman, Oskar. "Data processing of Controlled Source Audio Magnetotelluric (CSAMT) Data." Thesis, Uppsala universitet, Geofysik, 2019. http://urn.kb.se/resolve?urn=urn:nbn:se:uu:diva-387246.
Full textProjektet behandlar tre stycken metoder för att förbättra signalkvaliten hos Controlled Source Audio Magnetotellurics (CSAMT) data, dessa implementeras och deras för- och nackdelar diskuteras. Metoderna som hanteras är: Avlägsnandet av trender från tidsserier i tidsdomänen istället för i frekvensdomänen. Implementationen av ett koherenstest för att identifiera ”dåliga” datasegment ochavlägsna dessa från vidare beräkningar. Implementationen av en metod för att både hitta och avlägsna transienter (dataspikar) från tidsserien för att minska bakgrundsbruset i frekvensspektrat. Både avlägsnandet av trender samt transienter visar positiv inverkan på datakvaliteten,även om skillnaderna är relativt små (båda på ungefär 1-10%). På grund av begränsningarfrån mätdatan kunde inget meningsfullt koherenstest utformas. Överlag har processernasom diskuteras i rapporten förbättrat datakvaliten och kan ses som ett grundarbete förfortsatta förbättringar inom området.
Levy, Marcel Andrew. "Ringermute an audio data mining toolkit /." abstract and full text PDF (free order & download UNR users only), 2005. http://0-gateway.proquest.com.innopac.library.unr.edu/openurl?url_ver=Z39.88-2004&rft_val_fmt=info:ofi/fmt:kev:mtx:dissertation&res_dat=xri:pqdiss&rft_dat=xri:pqdiss:1433402.
Full textLarsen, Vegard Andreas. "Combining Audio Fingerprints." Thesis, Norwegian University of Science and Technology, Department of Computer and Information Science, 2008. http://urn.kb.se/resolve?urn=urn:nbn:no:ntnu:diva-8869.
Full textLarge music collections are now more common than ever before. Yet, search technology for music is still in its infancy. Audio fingerprinting is one method that allows searching for music. In this thesis several audio fingerprinting solutions are combined into a single solution to determine if such a combination can yield better results than any of the solutions can separately. The solution is used to find duplicate music files in a personal collection. The results show that applying the weighted root-mean square (WRMS) to the problem most effectively ranked the results in a satisfying manner. It was notably better than the other approaches tried. The WRMS produced 61% more correct matches than the original FDMF solution, and 49% more correct matches than libFooID.
Morimoto, Norishige. "Techniques for data hiding in audio files." Thesis, Massachusetts Institute of Technology, 1995. http://hdl.handle.net/1721.1/11422.
Full textIncludes bibliographical references (leaves 75-76).
by Norishige Morimoto.
M.S.
Spina, Michelle S. (Michelle Suzanne). "Analysis and transcription of general audio data." Thesis, Massachusetts Institute of Technology, 2000. http://hdl.handle.net/1721.1/86479.
Full textIncludes bibliographical references (p. 141-147).
by Michelle S. Spina.
Ph.D.
Gartenlaub, Arie Gal. "Hi fi digital audio tape to SUN workstation transfer system for digital audio data." Thesis, Monterey, Calif. : Springfield, Va. : Naval Postgraduate School ; Available from National Technical Information Service, 1994. http://handle.dtic.mil/100.2/ADA282550.
Full textShelley, Michael. "Bay audio repair website & data management application." Click here to view, 2010. http://digitalcommons.calpoly.edu/cscsp/5/.
Full textProject advisor: Franz Kurfess. Title from PDF title page; viewed on Apr. 19, 2010. Includes bibliographical references. Also available on microfiche.
Lu, Xinyou. "Inversion of controlled-source audio-frequency magnetotelluric data /." Thesis, Connect to this title online; UW restricted, 1999. http://hdl.handle.net/1773/6799.
Full textLee, Jong Seo. "RECOMMENDER SYSTEM FOR AUDIO RECORDINGS." DigitalCommons@CalPoly, 2010. https://digitalcommons.calpoly.edu/theses/238.
Full textAbefelt, Fredrik. "Synchronized audio playback over WIFI and Ethernet : A proof of concept multi-room audio playback system." Thesis, KTH, Skolan för informations- och kommunikationsteknik (ICT), 2015. http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-187345.
Full textHuvuduppgift med detta examensarbete har varit att utveckla ett synkroniserat ljuduppspelningssystem, vilket kan spela upp ljud samtidigt på flera enheter, enheterna är anslutna med antingen med Wi-Fi eller Ethernet. Två olika tillvägagångsätt har undersökts för att utveckla systemet, ett redan färdigt system och ett system baserat på ett ramverk med öppen källkod. Det utvecklade systemet kan utföra synkroniserad uppspelning på fem olika enheter och kan använda Blueetooth enheter och olika mediaspelare som ljudkälla.
Bosch, Vicente Juan José. "From heuristics-based to data-driven audio melody extraction." Doctoral thesis, Universitat Pompeu Fabra, 2017. http://hdl.handle.net/10803/404678.
Full textLa identificación de la melodía en una grabación musical es una tarea relativamente fácil para seres humanos, pero muy difícil para sistemas computacionales. Esta tarea se conoce como "extracción de melodía", más formalmente definida como la estimación automática de la secuencia de alturas correspondientes a la melodía de una grabación de música polifónica. Esta tesis investiga los beneficios de utilizar conocimiento derivado automáticamente de datos para extracción de melodía, combinando procesado digital de la señal y métodos de aprendizaje automático. Ampliamos el alcance de la investigación en este campo, al trabajar con un conjunto de datos variado y múltiples definiciones de melodía. En primer lugar presentamos un extenso análisis comparativo del estado de la cuestión y realizamos una evaluación en un contexto de música sinfónica. A continuación, proponemos métodos de extracción de melodía basados en modelos de fuente-filtro y la caracterización de contornos tonales, y los evaluamos en varios géneros musicales. Finalmente, investigamos la caracterización de contornos con información de timbre, tonalidad y posición espacial, y proponemos un método para la estimación de múltiples líneas melódicas. La combinación de enfoques supervisados y no supervisados lleva a mejoras en la extracción de melodía y muestra un camino prometedor para futuras investigaciones y aplicaciones.
Wang, Shuai. "Embedding data in an audio signal, using acoustic OFDM." Thesis, Linköpings universitet, Kommunikationssystem, 2011. http://urn.kb.se/resolve?urn=urn:nbn:se:liu:diva-71427.
Full textMarques, Janet 1976. "An automatic annotation system for audio data containing music." Thesis, Massachusetts Institute of Technology, 1999. http://hdl.handle.net/1721.1/80547.
Full textIncludes bibliographical references (leaves 51-53).
by Janet Marques.
S.B.and M.Eng.
Kohlsdorf, Daniel. "Data mining in large audio collections of dolphin signals." Diss., Georgia Institute of Technology, 2015. http://hdl.handle.net/1853/53968.
Full textFridlund, Julia. "Processing of Noisy Controlled Source Audio Magnetotelluric (CSAMT) Data." Thesis, Uppsala universitet, Geofysik, 2019. http://urn.kb.se/resolve?urn=urn:nbn:se:uu:diva-396255.
Full textMagnetotellurik med kontrollerad källa (förkortat CSAMT på engelska) är en metod där elektromagnetiska fält används för att undersöka markens resistivitet. Resisitivitet är ett mått på hur bra eller dåligt marken leder elektriska strömmar. Metoden används till exempel för att mäta djupet till berggrunden, som oftast har högre resistivitet (sämre ledningsförmåga) än marken ovanför. Man kan också hitta metaller, så som guld och koppar, vilka har väldigt låg resistivitet (bra ledningsförmåga). Elektromagnetiska vågor skapas genom att man låter en växelström gå igenom en lång ledning. Vågorna färdas först genom luften och sen ner i marken. Hur djupt ner de når beror på växelströmmens frekvens; med låga frekvenser når vågorna djupare ner i marken än med höga. Under markytan inducerar de elektromagnetiska vågorna elektriska strömmar, så kallade telluriska strömmar (dvs. jordströmmar). Strömmarna blir svagare ju längre de färdas och hur snabbt de avtar i styrka beror på jordens resistivitet. Strömmarna skapar också nya elektriska och magnetiska fält som färdas tillbaka mot ytan. Vid markytan mäter man fältens styrka för olika frekveser, vilket då ger information om resistiviteten på olika djup. Från mätningarna tar man ofta fram så kallade magnetotelluriska överföringsfunktioner. Dessa överföringsfunktioner gör det lättare att tolka datan och ta reda på resistiviteten hos marken. I detta projekt har CSAMT-data använts från en undersökning i Kiruna som genomfördes av Uppsala Universitet och gruvföretaget LKAB. Datan har bearbetats tidigare, men på grund av mycket brus i mätningarna blev inte resultatet så bra som väntat. Brus kan komma från allt som genererar elektromagnetiska fält, till exempel elledningar, tågledningar eller naturliga variationer i jordens egna magnetfält. Målet med projektet var att förbättra resultatet genom att analysera datan och testa olika metoder för att ta bort brus. Den vanligaste metoden för att beräkna överföringsfunktionerna antar att det magnetiska fältet är fritt från brus. Detta är inte nödvändigtvis sant och kan leda till bias, alltså ett snedvridet resultat. Andra sätt att beräkna överföringsfunktionerna på ger olika bias. Det här kan man utnyttja för att se hur mycket brus som finns i datan. Om det inte finns något brus alls så blir alla överföringsfunktioner lika, medan om det finns mycket brus så skiljer de sig mer åt. På detta sätt upptäcktes att det var mer brus för frekvenserna 14 och 20 Hz (där 1 Hz är 1 svängning per sekund). En förklaring till det kan vara att tågledningar, som genererar elektromagnetiska fält med 16.67 Hz, ligger nära i frekvens och stör dessa signaler. För att minska brusets påverkan testades så kallad robust processering. Det innebär att man lägger mindre vikt vid de mätningar som tycks vara mycket annorlunda (alltså innehåller mer brus) från andra mätningar. Tyvärr så hjälpte inte denna strategi nämnvärt för att förbättra resultatet. Till sist tog vi fram en metod för att ta bort transienter, vilket är kortvarigt brus med hög intensitet. Transienter kan till exempel komma från åskblixtar, som ju är kortvariga elektriska urladdningar. Det visade sig dock att detta inte var helt enkelt, då det var svårt att se vad som var brus och vad som bara var naturliga variationer hos de elektromagnetiska fälten. Men i några fall kunde bruset urskiljas och därför verkar det troligt att fortsatt arbete med denna metod skulle kunna ge ännu bättre resultat.
Chin, Craig. "Multilevel data compression techniques for transmission of audio over networks." FIU Digital Commons, 2001. http://digitalcommons.fiu.edu/etd/2336.
Full textNavalekar, Abhijit C. "Design of a high data rate audio band OFDM modem." Worcester, Mass. : Worcester Polytechnic Institute, 2006. http://www.wpi.edu/Pubs/ETD/Available/etd-041806-174713/.
Full textKwon, Patrick (Patrick Ryan) 1975. "Speaker spotting : automatic annotation of audio data with speaker identity." Thesis, Massachusetts Institute of Technology, 1998. http://hdl.handle.net/1721.1/47608.
Full textFenet, Sébastien. "Empreintes audio et stratégies d'indexation associées pour l'identification audio à grande échelle." Thesis, Paris, ENST, 2013. http://www.theses.fr/2013ENST0051/document.
Full textN this work we give a precise definition of large scale audio identification. In particular, we make a distinction between exact and approximate matching. In the first case, the goal is to match two signals coming from one same recording with different post-processings. In the second case, the goal is to match two signals that are musically similar. In light of these definitions, we conceive and evaluate different audio-fingerprint models
Hemgren, Dan. "Fuzzy Content-Based Audio Retrieval Using Visualization Tools." Thesis, KTH, Skolan för elektroteknik och datavetenskap (EECS), 2019. http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-264514.
Full textDigital ljuddesign och musikkomposition innebär ofta ett sökande genom stora samlingar av ljudfiler efter rätt sampling. Traditionellt sett innebär detta antingen textsökning via metadata såsom filnamn och tags eller manuell sökning genom filstrukturer. Denna rapport presenterar en snabb, skalbar lösning i form av en sökmotor som möjliggör användandet av en ljudfil för innehållsbaserad sökning som hittar liknande ljudfiler. Den presenterade lösningen använder visualiseringsverktyg för att snabba upp hämtningstiden jämför med enkla KD-tree-algoritmer. Kvalitativa och kvantitativa resultat presenteras och för- och nackdelar med lösningen diskuteras. De kvalitativa resultaten visar på potential men bedöms vara ofullständiga. De kvantitativa resultaten påvisar storleksordningar kortare hämtningstid då UMAP används, dock med sänkt noggrannhet som följd, och lösningen visar sig skala väl med större mängder data.
Hansen, Vedal Amund. "Unsupervised Audio Spectrogram Compression using Vector Quantized Autoencoders." Thesis, KTH, Skolan för elektroteknik och datavetenskap (EECS), 2019. http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-264947.
Full textTrots de senaste framgångarna för neurala nätverk på en rad olika områden är musikalisk ljudmodellering fortfarande en svår uppgift, med karakteristiska egenskaper som spänner över tiotusentals dimensioner i inputrymnden. Genom att formulera ljuddatakomprimering som en oövervakad inlärningsuppgift undersöker detta projekt användbarheten av vektorkvantiserade neurala nätverkbaserade självkodare på spektrogram – en bildliknande representation av ljud. Med en nyligen beskriven gradientbaserad metod för approximering av vågformer från rekonstruerade (realvärda) spektrogram, producerar den diskreta pipelinen lyssningsbara rekonstruktioner med överraskande ljudåtergivning jämfört med okomprimerade versioner, även för exempel utanför domänen. Resultaten tyder på att den lärda diskreta kvantiseringsmetoden uppnår ungefär nio gånger hårdare spektrogramkompression jämfört med sin kontinuerliga motsvarighet, samtidigt som den skapar liknande rekonstruktioner, både kvalitativt och enligt kvantitativa felmått.
Olofsson, Oskar. "Detecting Unsynchronized Audio and Subtitles using Machine Learning." Thesis, KTH, Skolan för elektroteknik och datavetenskap (EECS), 2019. http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-261414.
Full textOsynkroniserade ljud- och undertextfiler är vanligt förekommande inom strömmande media. Då undertexter ofta står för en viktig del i upplevelsen av innehållet, så kan detta medföra stora konsekvenser, och till och med göra innehållet obegripligt för vissa tittare. Att manuellt detektera detta problem är tidskrävande eftersom mediafiler måste undersökas och utvärderas i detalj. I examensarbetet undersöks hur maskininlärning kan användas för att automatiskt detektera om ljud och undertexter är osynkroniserade. Processen kan beskrivas i två delar, där den första delen går ut på att träna maskinlärningsmodellerna Support Vector Machine, Random Forest och Multilayer Perceptron att klassificera huruvida det ska vara undertext eller inte. Input till modellerna består av data extraherat från ljudfiler. För att avgöra vilken model som är bäst jämförs modellerna och utvärderas med avseende på träffsäkerheten och tidseffektiviten. Den andra delen går ut på att använda den bästa modellen för att detektera om ljud- och undertextfiler är osynkroniserade. Detta görs genom att jämföra den förutspådda undertextfördelningen med den faktiska undertexten och söka efter en bättre överensstämmelse genom att förskjuta undertexten, om det går att påvisa att en bättre överensstämmelse finns tillgänglig klassificeras filparet osynkroniserat. Arbetet visar på att Random Forest har högst träffsäkerhet och lämpar sig bäst för ändamålet. Av tio filpar som testades lyckades metoden göra en korrekt detektering för nio av filparen. Slutsatsen är att metoden fungerar men att ytterliggare arbete innefattar att öka träffsäkerheten genom att testa andra algoritmer eller ljudextraheringstekniker.
Hargreaves, Steven. "Music metadata capture in the studio from audio and symbolic data." Thesis, Queen Mary, University of London, 2014. http://qmro.qmul.ac.uk/xmlui/handle/123456789/8816.
Full textRuiter, Julia. "Practical Chaos: Using Dynamical Systems to Encrypt Audio and Visual Data." Scholarship @ Claremont, 2019. https://scholarship.claremont.edu/scripps_theses/1389.
Full textReuben, Mugisha. "Addressing Civil Servants´ training needs through audio-visual content." Thesis, Örebro universitet, Handelshögskolan vid Örebro universitet, 2010. http://urn.kb.se/resolve?urn=urn:nbn:se:oru:diva-12558.
Full textLanciani, Christopher A. "Compressed-domain processing of MPEG audio signals." Diss., Georgia Institute of Technology, 1999. http://hdl.handle.net/1853/13760.
Full textPérez, López Andrés. "Parametric analysis of ambisonic audio: a contributions to methods, applications and data generation." Doctoral thesis, Universitat Pompeu Fabra, 2020. http://hdl.handle.net/10803/669962.
Full textSmith, Strether. "DATA ACQUISITION SYSTEMS FOR AUDIO-FREQUENCY, MECHANICAL-TESTING APPLICATIONS — RECENT DEVELOPMENTS 2001 —." International Foundation for Telemetering, 2001. http://hdl.handle.net/10150/606437.
Full textThe objective of any data acquisition system is to make accurate measurements of physical phenomena. Many of the phenomena to be characterized contain data that is in the audio-frequency range between 0 and 50,000 Hertz. Examples include structural vibration, wind-tunnel measurements, turbine engines and acoustics in air and water. These tests often require a large number of channels and may be very expensive. In some cases, there may be only one opportunity to acquire the data. This paper describes a testing/measurement philosophy and the use of advances in available hardware/software systems to implement the requirements. Primary emphasis is on robustness (assurance that critical data is properly recorded), measurement/characterization of unexpected results (generated by accidents or unexpected behavior), and test safety (for both the test article and the facility). Finally, a data acquisition system that encompasses the features discussed is described.
Chen, Howard. "AZIP, audio compression system: Research on audio compression, comparison of psychoacoustic principles and genetic algorithms." CSUSB ScholarWorks, 2005. https://scholarworks.lib.csusb.edu/etd-project/2617.
Full textMelih, Kathy, and n/a. "Audio Source Separation Using Perceptual Principles for Content-Based Coding and Information Management." Griffith University. School of Information Technology, 2004. http://www4.gu.edu.au:8080/adt-root/public/adt-QGU20050114.081327.
Full textMelih, Kathy. "Audio Source Separation Using Perceptual Principles for Content-Based Coding and Information Management." Thesis, Griffith University, 2004. http://hdl.handle.net/10072/366279.
Full textThesis (PhD Doctorate)
Doctor of Philosophy (PhD)
School of Information Technology
Full Text
Goussard, George Willem. "Unsupervised clustering of audio data for acoustic modelling in automatic speech recognition systems." Thesis, Stellenbosch : University of Stellenbosch, 2011. http://hdl.handle.net/10019.1/6686.
Full textENGLISH ABSTRACT: This thesis presents a system that is designed to replace the manual process of generating a pronunciation dictionary for use in automatic speech recognition. The proposed system has several stages. The first stage segments the audio into what will be known as the subword units, using a frequency domain method. In the second stage, dynamic time warping is used to determine the similarity between the segments of each possible pair of these acoustic segments. These similarities are used to cluster similar acoustic segments into acoustic clusters. The final stage derives a pronunciation dictionary from the orthography of the training data and corresponding sequence of acoustic clusters. This process begins with an initial mapping between words and their sequence of clusters, established by Viterbi alignment with the orthographic transcription. The dictionary is refined iteratively by pruning redundant mappings, hidden Markov model estimation and Viterbi re-alignment in each iteration. This approach is evaluated experimentally by applying it to two subsets of the TIMIT corpus. It is found that, when test words are repeated often in the training material, the approach leads to a system whose accuracy is almost as good as one trained using the phonetic transcriptions. When test words are not repeated often in the training set, the proposed approach leads to better results than those achieved using the phonetic transcriptions, although the recognition is poor overall in this case.
AFRIKAANSE OPSOMMING: Die doelwit van die tesis is om ’n stelsel te beskryf wat ontwerp is om die handgedrewe proses in die samestelling van ’n woordeboek, vir die gebruik in outomatiese spraakherkenningsstelsels, te vervang. Die voorgestelde stelsel bestaan uit ’n aantal stappe. Die eerste stap is die segmentering van die oudio in sogenaamde sub-woord eenhede deur gebruik te maak van ’n frekwensie gebied tegniek. Met die tweede stap word die dinamiese tydverplasingsalgoritme ingespan om die ooreenkoms tussen die segmente van elkeen van die moontlike pare van die akoestiese segmente bepaal. Die ooreenkomste word dan gebruik om die akoestiese segmente te groepeer in akoestiese groepe. Die laaste stap stel die woordeboek saam deur gebruik te maak van die ortografiese transkripsie van afrigtingsdata en die ooreenstemmende reeks akoestiese groepe. Die finale stap begin met ’n aanvanklike afbeelding vanaf woorde tot hul reeks groep identifiseerders, bewerkstellig deur Viterbi belyning en die ortografiese transkripsie. Die woordeboek word iteratief verfyn deur oortollige afbeeldings te snoei, verskuilde Markov modelle af te rig en deur Viterbi belyning te gebruik in elke iterasie. Die benadering is getoets deur dit eksperimenteel te evalueer op twee subversamelings data vanuit die TIMIT korpus. Daar is bevind dat, wanneer woorde herhaal word in die afrigtingsdata, die stelsel se benadering die akkuraatheid ewenaar van ’n stelsel wat met die fonetiese transkripsie afgerig is. As die woorde nie herhaal word in die afrigtingsdata nie, is die akkuraatheid van die stelsel se benadering beter as wanneer die stelsel afgerig word met die fonetiese transkripsie, alhoewel die akkuraatheid in die algemeen swak is.
Lopes, Batres Mario. "Integrating Spatial Audio in Voice Guidance Systems." Thesis, KTH, Skolan för elektroteknik och datavetenskap (EECS), 2020. http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-289640.
Full textNavigationssystem används ofta i våra dagliga liv. Forskning har visat att rumsligt ljud ger ett tillfälle att effektivare kommunicera till föraren i riktningen för nästa manöver. Detta avhandlingsprojekt föreslår en ny funktion för spatialisering av ljudkoder som utlöses av ett mobilnavigeringssystem med hjälp av en virtualiserad vektorbaserad panorering (VVBP) arkitektur för kodning och avkodning. Prototypen som utvecklats under denna avhandling möjliggör spatialisering med hörlurar eller högtalarbaserade system. Denna studie syftar till att främja en ny ljudupplevelse för användaren, som kan användas för att öka säkerheten och prestandan vid körning. Baserat på en expertgranskning och ett användartest testades applikationen på olika scenarier. Deltagarna som valdes ut under dessa sessioner var en del av HERE Technologies, som gjorde det möjligt att nå konstruktionsexperter som kände till den nuvarande applikationen från företaget i förväg, vilket underlättar jämförelsen med förslaget. Detta val kan också utgöra en begränsning av studien eftersom användarna kan ha en personlig fördom för att se nya funktioner i en produkt som redan har arbetat med. Analys av resultaten som erhölls under testperioden visade hög tillfredsställelse med funktionen hos användarna och en bättre förståelse för deras omgivning. Konsekvensen indikerar att rumsligt ljud kan förbättra körförmågan genom att införa en ny informationskälla för positionering av nästa sväng eller hinder. Ytterligare forskning behövs för att identifiera andra faktorer som kan stärka produktens effektivitet.
Udaya, Kumar Magesh Kumar. "Classification of Parkinson’s Disease using MultiPass Lvq,Logistic Model Tree,K-Star for Audio Data set : Classification of Parkinson Disease using Audio Dataset." Thesis, Högskolan Dalarna, Datateknik, 2011. http://urn.kb.se/resolve?urn=urn:nbn:se:du-5596.
Full textDean, David Brendan. "Synchronous HMMs for audio-visual speech processing." Thesis, Queensland University of Technology, 2008. https://eprints.qut.edu.au/17689/3/David_Dean_Thesis.pdf.
Full textDean, David Brendan. "Synchronous HMMs for audio-visual speech processing." Queensland University of Technology, 2008. http://eprints.qut.edu.au/17689/.
Full textJiang, Jing Jing. "Self-synchronization and LUT based client side digital audio watermarking." Thesis, University of Macau, 2011. http://umaclib3.umac.mo/record=b2550676.
Full textPrykhodko, S. B. "Application of Nonlinear Stochastic Differential Systems for Data Protection in Audio and Graphics Files." Thesis, Sumy State University, 2015. http://essuir.sumdu.edu.ua/handle/123456789/41209.
Full textBarakat, Arian. "What makes an (audio)book popular?" Thesis, Linköpings universitet, Statistik och maskininlärning, 2018. http://urn.kb.se/resolve?urn=urn:nbn:se:liu:diva-152871.
Full textMiller, Robin J. "COFDM for HF digital broadcasting." Thesis, University of Brighton, 1998. http://ethos.bl.uk/OrderDetails.do?uin=uk.bl.ethos.287067.
Full textShakespeare, Simon Adam. "Fetal heart rate derivation via Doppler ultrasound." Thesis, University of Nottingham, 2000. http://ethos.bl.uk/OrderDetails.do?uin=uk.bl.ethos.342473.
Full textHansjons, Vegeborn Victor. "LjudMAP: A Visualization Tool for Exploring Audio Collections with Real-Time Concatenative Synthesis Capabilities." Thesis, KTH, Skolan för elektroteknik och datavetenskap (EECS), 2020. http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-277831.
Full textI detta examensarbete presenteras mjukvaruverktyget ”LjudMAP,” som sam- manfogar tekniker i musikinformatik och oövervakade maskininlärningsmetoder för att bistå i utforskande av ljudsamlingar. LjudMAP bygger på koncepten som återfinns i ”Temporally Disassembled Audio” som är framtaget för att möjliggöra snabbt bläddrande i ljudupptagningar av tal. LjudMAP är istället avsedd för analys och realtidskomposition av elektroakustik musik, och är programmerad på ett sätt som kan inkludera fler ljuddeskriptorer. I examensarbetet presenteras undersökningar i hur LjudMAP kan användas för att identifiera likheter och kluster av ljud inom ljudsamlingar. Ett viktigt bidrag är koagulering av kluster av ljud baserat på principer för närhet i tids- och funktionsrymden. Examensarbetet visar också hur LjudMAP kan användas för komposition genom flera demonstrationer utförda av en elektroakustisk kompositör som använt sig av olika ljudkällor. Källkoden för LjudMAP finns tillgängligt vid: https://github.com/victorwegeborn AP.
Slater, P. "The creation and control of digital audio waveforms : An investigation into techniques for the creation and real-time control of audio waveforms using data representations which result in timbral flexibility and high audio quality." Thesis, University of Bradford, 1988. http://ethos.bl.uk/OrderDetails.do?uin=uk.bl.ethos.233660.
Full textHenzl, David. "VST Plug-IN pro vodoznačení audio signálů." Master's thesis, Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií, 2008. http://www.nusl.cz/ntk/nusl-217498.
Full textSaeed, Nausheen. "Automated Gravel Road Condition Assessment : A Case Study of Assessing Loose Gravel using Audio Data." Licentiate thesis, Högskolan Dalarna, Institutionen för information och teknik, 2021. http://urn.kb.se/resolve?urn=urn:nbn:se:du-36402.
Full textDue to unforeseen circumstances the seminar was postponed from May 7 to 28, as duly stated in the new posting page.
Scholz, Anne-Charlot. "Voice Qualities in Audio Subtitles : Opportunities and Challenges in Voice Design for accessibility and beyond." Thesis, KTH, Skolan för elektroteknik och datavetenskap (EECS), 2021. http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-299944.
Full textDenna uppsats utforskar nya kvaliteter av rösten i uppläst undertext genom research through design, en metod där kunskap skapas genom design processen och reaktioner till design. Uppläst undertext är en tillgänglighetstjänst för användare som har problem med att läsa och följa undertexter i audiovisuellt innehåll och har nyligen utvecklats för video on demand-plattformar som SVT Play. För att utforska möjligheter i dens röstdesign producerades korta videoklipp av filmer och TV-serier med olika typer av uppläst undertext. De presenterades för och diskuterades med ett litet antal potentiella användare av tjänsten, bland dem personer med dyslexi, kognitiva svårigheter och autism. Resultaten indikerade att röster som inte stödde användarens förväntningar, låga och höga tonhöjden samt talsyntes av låg kvalitet, gav obehagliga upplevelser, vilket kan visa sig vara användbart för att framkalla reflektioner och utmana normer. Uppsatsen diskuterar även hur röstdesign för uppläst undertext har potentialen att efterlikna filmskaparnas avsikter genom att översätta mer än semantisk information, och hur ljudundertexter kan produceras av professionella ljuddesigner och filmskapare istället för video on demand tjänster. Slutligen tas utmaningar som felaktig könsbestämning och okänsliga röstval i röstdesign för uppläst undertext i hänsyn, vilket understryker hur etik inte kan undvikas när det arbetas med röst-modaliteten.
Vijjapu, Sudheer Paarmann Larry D. "RC implementation of an audio frequency band Butterworth MASH delta-sigma analog to digital data converter." Diss., The archival copy of this thesis can be found at SOAR (password protected), 2006. http://soar.wichita.edu/dspace/handle/10057/568.
Full text"August 2006." Title from PDF title page (viewed on May 2, 2007). Thesis adviser: Larry D. Paarmann. Includes bibliographic references (leaves 41-43).
Rintala, Jonathan. "Speech Emotion Recognition from Raw Audio using Deep Learning." Thesis, KTH, Skolan för elektroteknik och datavetenskap (EECS), 2020. http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-278858.
Full textTraditionellt sätt, vid talbaserad känsloigenkänning, kräver modeller ett stort antal manuellt konstruerade attribut och mellanliggande representationer, såsom spektrogram, för träning. Men att konstruera sådana attribut för hand kräver ofta både domänspecifika expertkunskaper och resurser. Nyligen har djupinlärningens framväxande end-to-end modeller, som utvinner attribut och lär sig direkt från den råa ljudsignalen, undersökts. Ett tidigare tillvägagångssätt har varit att kombinera parallella CNN:er med olika filterlängder för att extrahera flera temporala attribut från ljudsignalen och sedan låta den resulterande sekvensen passera vidare in i ett så kallat Recurrent Neural Network. Andra tidigare studier har också nått en hög noggrannhet när man använder lokala inlärningsblock (LFLB) för att reducera dimensionaliteten hos den råa ljudsignalen, och på så sätt extraheras den viktigaste informationen från ljudet. Således kombinerar denna studie idén om att nyttja LFLB:er för extraktion av attribut, tillsammans med ett block av parallella CNN:er som har olika filterlängder för att fånga multitemporala attribut; detta kommer slutligen att matas in i ett LSTM-lager för global inlärning av kontextuell information. Så vitt vi vet har en sådan kombinerad arkitektur ännu inte undersökts. Vidare kommer denna studie att undersöka olika konfigurationer av en sådan arkitektur. Den föreslagna modellen tränas och utvärderas sedan på de välkända taldatabaserna EmoDB och RAVDESS, både via ett talarberoende och talaroberoende tillvägagångssätt. Resultaten indikerar att den föreslagna arkitekturen kan ge jämförbara resultat med state-of-the-art, trots att ingen ökning av data eller avancerad förbehandling har inkluderats. Det rapporteras att 3 parallella CNN-lager gav högsta noggrannhet, tillsammans med en serie av modifierade LFLB:er som nyttjar average-pooling och ReLU som aktiveringsfunktion. Detta visar fördelarna med att lämna inlärningen av attribut till nätverket och öppnar upp för intressant framtida forskning kring tidskomplexitet och avvägning mellan introduktion av komplexitet i förbehandlingen eller i själva modellarkitekturen.
Karri, Janardhan Bhima Reddy. "Low Power Real-time Video and Audio Embedded System Design for Naturalistic Bicycle Study." Scholar Commons, 2015. https://scholarcommons.usf.edu/etd/5518.
Full text