kth.sePublications
Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Perceptually meaningful time and frequency resolution in applying dialogue enhancement in noisy environments: Dialogue Enhancement research
KTH, School of Electrical Engineering and Computer Science (EECS).
2023 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesis
Abstract [en]

Dialogue Enhancement (DE) is a process used in audio delivery systems to improve the clarity, intelligibility, and overall quality of the spoken dialogue in audio content. It is primarily used when dialogue is masked by music, surrounding noise, or other audio sources. This thesis project involves experiments to find the optimal time and frequency resolution needed for a DE system. The time resolution focuses on experimenting with various attack/release times for a DE system. The frequency domain analysis investigates whether people prefer a noise spectrum-dependent gain over a conventional full-band gain. The research methodology comprises three main parts. The first part focuses on system setup and choosing content/vectors to be used for the experiments. Next, the experiments are designed for time and frequency resolution. An exponential smoothing model is used to amplify/attenuate the dialogue stream at various times of attack/release. For the frequency counterpart, a banded gain model is designed which uses banded noise levels as input. Subsequently, a modified subjective listening test is designed to evaluate the experiments designed. The responses recorded for various types of content-noise combinations from the listeners are recorded and analyzed. Finally, the main outcome of this research emphasizes the advantages of a DE system. Further, it paves the way for further exploration of DE models and rigorous testing schemes with expert listeners.

Abstract [sv]

Dialogue Enhancement (DE) är en process som används i ljudleveranssystem för att förbättra tydligheten, förståeligheten och den övergripande kvaliteten på den talade dialogen i ljudinnehåll. Det används främst när dialog maskeras av musik, omgivande brus eller andra ljudkällor. Detta examensarbete omfattar experiment för att hitta den optimala tids- och frekvensupplösningen för ett DEsystem. Tidsupplösningsexperimenten fokuserar på olika attack- och releasetider för ett DE-system. Frekvensdomänanalysen undersöker om människor föredrar en brusspektrumberoende förstärkning framför en konventionell fullbandsförstärkning. Forskningsmetodiken består av tre huvuddelar. Den första delen fokuserar på systeminställning och val av innehåll/vektorer som ska användas för experimenten. Därefter designas tids- och frekvensupplösningsexperimenten. En exponentiell tidsenvelopp används för att förstärka/dämpa dialogen vid olika tider för attack/release. För frekvensdomänexperimenten används en bandad förstärkningsmodell som använder bandade brusnivåer som insignal. I den tredje delen utformas ett subjektivt lyssningstest för att utvärdera experimenten. Lyssnarnas svar för olika typer av innehåll-bruskombinationer registreras och analyseras. Det huvudsakliga resultatet av denna forskning betonar fördelarna med ett DEsystem. Vidare banar det väg för utforskning av fler DE-modeller och rigorösa testscheman med expertlyssnare.

Place, publisher, year, edition, pages
2023. , p. 56
Series
TRITA-EECS-EX ; 2023:849
Keywords [en]
Dialogue enhancement, audio signal processing, Fourier transform, time constants, environmental noise analysis, noise compensation, subjective listening test, speech intelligibility, quality of experience, listening effort.
Keywords [sv]
Dialogförbättring, ljudsignalbehandling, Fouriertransform, tid konstanter, miljöbrusanalys, bruskompensation, subjektivt lyssnande test, taluppfattbarhet, upplevelsekvalitet, lyssnaransträngning
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-343146OAI: oai:DiVA.org:kth-343146DiVA, id: diva2:1835969
External cooperation
Dolby Sweden AB
Supervisors
Examiners
Available from: 2024-02-08 Created: 2024-02-07 Last updated: 2024-02-08Bibliographically approved

Open Access in DiVA

fulltext(3900 kB)173 downloads
File information
File name FULLTEXT01.pdfFile size 3900 kBChecksum SHA-512
be8c09896a292a9ea8b6296ffa14d1a39f2cc6f814cca8712ba4c19cb073e3f1d48814f7d96528c6fb64c23b7b3c84e202e60caf65f7bfb6b2f96fae75767bb3
Type fulltextMimetype application/pdf

By organisation
School of Electrical Engineering and Computer Science (EECS)
Computer and Information Sciences

Search outside of DiVA

GoogleGoogle Scholar
Total: 173 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 265 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf