kth.sePublications
Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Room Impulse Response Interpolation
KTH, School of Electrical Engineering and Computer Science (EECS).
2023 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesisAlternative title
Interpolation av impulssvar från rum (Swedish)
Abstract [en]

In Virtual Reality (VR) systems, the incorporation of acoustics allows for the generation of audio-visual stimuli, facilitating applications in engineering, architecture, and design. The goal of virtual acoustics is to create a realistic sound field in continuous space. Realistic virtual acoustic environments can be produced with wave-based acoustic simulations. However, rendering a sound field with a dense grid of room impulse responses (RIRs) in real-time is slow and memory-intensive. Conventionally, a more sparsely spaced grid of RIRs is used and as a workaround linear interpolation between the nearest RIRs is performed, allowing users to listen at an arbitrary location. However, the linear interpolation method reduces the quality of the sound field as it does not produce natural-sounding RIRs. The aim of this thesis is therefore to answer the question of whether we are able to achieve a better interpolation technique than linear interpolation using a machine learning approach. In this thesis, we present a novel neural network-based method for interpolating between Room Impulse Responses (RIRs). The networks were trained using RIRs from a wave-based simulation of a single 3D room and developed through a series of experiments. The experimental process was performed in three distinct stages. Firstly, we explored various representations of the RIRs: unprocessed RIRs, Short-time Fourier transform (STFT) of RIRs, and encoded STFT of the RIRs using an autoencoder. Secondly, we examined several different neural network architectures: Multi-layer perception, residual neural network, autoencoder, and U-Net. Additionally, we experimented with training the networks in a Generative Adversary Network (GAN) setting. Thirdly, we experimented with different sizes of the best-performing architecture. Results show that using an STFT representation of the RIRs combined with a residual neural network architecture yielded the most optimal results. Furthermore, we were able to outperform the established linear interpolation baseline.

Abstract [sv]

Inom Virtuell Verklighet (VR) möjliggör användningen av akustik skapandet av audiovisuell stimuli, vilket underlättar tillämpningar inom ingenjörsvetenskap, arkitektur och design. Målet med virtuell akustik är att skapa ett verklighetstroget och kontinuerligt ljudfält. Verklighetstrogna virtuella akustiska miljöer kan skapas med hjälp av vågbaserade akustiska simuleringar. Men att återge ett ljudfält med ett tätt rutnät av Room Impulse Responses (RIRs) i realtid är långsamt och minneskrävande. Konventionellt används ett rutnät med glesare avstånd av RIR, och som en lösning utförs linjär interpolation mellan de närmaste RIR:erna, vilket tillåter användare att lyssna på en godtycklig plats. Den linjära interpolationen minskar dock kvaliteten på ljudfältet eftersom den inte producerar naturligt ljudande RIR:er. Syftet med detta examensarbete är därför att besvara frågan om vi kan finna en bättre interpolationsteknik än linjär interpolation med hjälp av en maskininlärningsmetod. I detta examensarbete presenterar vi en ny metod för interpolering mellan Room Impulse Responses (RIR:er) baserad på neurala nätverk. De neurala nätverken tränades med hjälp av RIR:er från en vågbaserad simulering av ett enskilt 3D-rum och utvecklades genom en serie experiment. Experimenten utfördes i tre steg. Först undersöktes olika representationer av RIR:er: obearbetade RIR:er, korttids fouriertransform (STFT) av RIR:er och kodade STFT av RIR:er med hjälp av en autoencoder. Det andra steget innefattade undersökningen av flera olika neurala nätverksarkitekturer: Multi-layer perception, residual neural network, autoencoder och U-Net. Dessutom experimenterade vi med att träna nätverken i en GAN-miljö (Generative Adversary Network). I det tredje steget experimenterade vi med olika storlekar på den mest effektiva arkitekturen. Resultaten visar att användning av en STFT-representation av RIR:er kombinerat med en residual neural nätverksarkitektur resulterade i de mest optimala resultaten. Dessutom kunde vi överträffa den etablerade linjära interpolationsbaslinjen.

Place, publisher, year, edition, pages
2023. , p. 41
Series
TRITA-EECS-EX ; 2023:754
Keywords [en]
Virtual Acoustics, Machine Learning, Signal Processing, Room Impulse Response
Keywords [sv]
Virtuell Akustik, Maskininlärning, Signalbehandling, rumsimpulssvar
National Category
Electrical Engineering, Electronic Engineering, Information Engineering
Identifiers
URN: urn:nbn:se:kth:diva-339898OAI: oai:DiVA.org:kth-339898DiVA, id: diva2:1813689
External cooperation
Treble Technologies
Supervisors
Examiners
Available from: 2023-12-07 Created: 2023-11-21 Last updated: 2023-12-07Bibliographically approved

Open Access in DiVA

fulltext(2000 kB)578 downloads
File information
File name FULLTEXT01.pdfFile size 2000 kBChecksum SHA-512
ce02ad2cf822ffa0ffd51fa24b285bde1c69993e9030f5e7daaaba8999b653860e5ee2128ca630b76573b90ecea6269b6415c5d515eb9c1183ca9b4b7dcf7724
Type fulltextMimetype application/pdf

By organisation
School of Electrical Engineering and Computer Science (EECS)
Electrical Engineering, Electronic Engineering, Information Engineering

Search outside of DiVA

GoogleGoogle Scholar
Total: 578 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 288 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf