kth.sePublications
Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Stable diffusion for HRIR extrapolation: A novel approach with deep learning
KTH, School of Electrical Engineering and Computer Science (EECS).
2023 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesisAlternative title
Stabil diffusion för HRIR-extrapolering : Ett nytt sätt med djupinlärning (Swedish)
Abstract [en]

Humans perceive and interact with their environment through a multitude of sensory channels. Among these, hearing plays a pivotal role, enabling humans to effectively navigate their surroundings. Sound localization, a complex process, relies on the ability of the human brain to distinguish subtle differences between propagated sound waves interacted with the subject's anthropometric features. However, when utilizing headphones in virtual environments, this natural interaction between sound waves and the human subject is altered. To replicate this phenomenon, the acquisition of head-related filters (HR filters) is necessary to transform non-spatial audio into its spatial representation. Unfortunately, the recording process of HR filters is arduous and resource-intensive, resulting in spatial gaps within datasets, particularly in regions above and below the subject, which are more challenging to capture. To address these incomplete HR filters, extrapolation methods must be employed. While distance extrapolation has been previously explored, research on extrapolation techniques for HR filters remains scarce. Hence, this study introduces a novel approach utilizing a pre-trained deep learning model known as Stable Diffusion to efficiently train the model. The results of this innovative technique showcase a remarkable level of precision and fidelity in the extrapolation of head-related filters (HR filters) for both high and low elevations for virtual auditory environments. Through the utilization of the proposed approach, HR filters are successfully extended beyond their original recording boundaries, allowing for an enhanced spatial representation of sound sources situated at varying heights. The extrapolation process not only achieves high levels of accuracy but also ensures the preservation of intricate spatial details, enabling a more immersive and realistic auditory experience for users. These findings signify a significant advancement in the field of virtual acoustics and hold substantial implications for applications such as virtual reality, gaming, and audio engineering.

Abstract [sv]

Människor uppfattar och interagerar med sin omgivning genom en mängd sensoriska kanaler. Bland dessa har hörseln en avgörande roll och möjliggör för människor att effektivt navigera i sin omgivning. Ljudlokalisering, en komplex process, är beroende av människans förmåga att urskilja subtila skillnader mellan interagerande ljudvågor med människans antropometriska särdrag. När dock hörlurar används i virtuella miljöer förändras denna naturliga interaktion mellan ljudvågor och människan. För att replikera detta fenomen behövs insamling av huvudrelaterade filter (HR-filter) för att omvandla icke-spatialt ljud till dess spatiala representation. Tyvärr är inspelningsprocessen för HR-filter besvärlig och resurskrävande, vilket resulterar i spatiala luckor inom datamängder, särskilt i områden över och under subjektet som är svårare att fånga. För att åtgärda dessa ofullständiga HR-filter måste extrapolationsmetoder användas. Medan avståndsextrapolation tidigare har undersökts är forskningen kring extrapolationstekniker för HR-filter knapphändig. Därför presenterar denna studie ett nytt tillvägagångssätt som utnyttjar en förtränad djupinlärningsmodell kallad Stable Diffusion för att effektivt träna modellen. Resultaten från denna innovativa teknik visar en anmärkningsvärd precision och noggrannhet vid extrapoleringen av huvudrelaterade filter (HR-filter) för både höga och låga höjdpositioner för virtuella ljudmiljöer. Genom användning av det föreslagna tillvägagångssättet kan HR-filter framgångsrikt förlängas utanför sina ursprungliga inspelningsgränser, vilket möjliggör en förbättrad spatial representation av ljudkällor som är placerade på olika höjder. Extrapolationsprocessen uppnår inte bara hög noggrannhet utan säkerställer också bevarandet av intrikata spatiala detaljer, vilket möjliggör en mer immersiv och realistisk ljudupplevelse för användarna. Dessa resultat innebär en betydande framsteg inom området virtuell akustik och har väsentliga implikationer för tillämpningar såsom virtuell verklighet, spel och ljudteknik.

Place, publisher, year, edition, pages
Stockholm: KTH Royal Institute of Technology , 2023. , p. 73
Series
TRITA-EECS-EX ; 2023:747
Keywords [en]
Head-related filter, Generative AI, Diffusion
Keywords [sv]
Huvud-relaterat filter, Generative AI, Diffusion
National Category
Computer and Information Sciences Signal Processing Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-339468OAI: oai:DiVA.org:kth-339468DiVA, id: diva2:1811288
External cooperation
Telefonaktiebolaget LM Ericsson
Supervisors
Examiners
Available from: 2023-11-17 Created: 2023-11-12 Last updated: 2025-02-18Bibliographically approved

Open Access in DiVA

fulltext(12785 kB)497 downloads
File information
File name FULLTEXT01.pdfFile size 12785 kBChecksum SHA-512
e3915752f74111b857d7d82e9c23cb46af9b03cae5421d75e0695cbe8d831fe3719929db4b8108909d980183bee5b87f328781b2aec618e697f880cff210d4e1
Type fulltextMimetype application/pdf

By organisation
School of Electrical Engineering and Computer Science (EECS)
Computer and Information SciencesSignal ProcessingComputer and Information Sciences

Search outside of DiVA

GoogleGoogle Scholar
Total: 497 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 352 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf