kth.sePublikationer
Ändra sökning
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf
A processing framework to access large quantities of whispered speech found in ASMR
KTH, Skolan för elektroteknik och datavetenskap (EECS), Intelligenta system, Tal, musik och hörsel, TMH.ORCID-id: 0000-0002-6166-9061
KTH, Skolan för elektroteknik och datavetenskap (EECS), Intelligenta system, Tal, musik och hörsel, TMH.ORCID-id: 0000-0002-1643-1054
KTH, Skolan för elektroteknik och datavetenskap (EECS), Intelligenta system, Tal, musik och hörsel, TMH.ORCID-id: 0000-0001-5953-7310
2023 (Engelska)Ingår i: ICASSP 2023: 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Rhodes, Greece: IEEE Signal Processing Society, 2023Konferensbidrag, Publicerat paper (Refereegranskat)
Abstract [en]

Whispering is a ubiquitous mode of communication that humansuse daily. Despite this, whispered speech has been poorly servedby existing speech technology due to a shortage of resources andprocessing methodology. To remedy this, this paper provides a pro-cessing framework that enables access to large and unique data ofhigh-quality whispered speech. We obtain the data from recordingssubmitted to online platforms as part of the ASMR media-culturalphenomenon. We describe our processing pipeline and a method forimproved whispered activity detection (WAD) in the ASMR data.To efficiently obtain labelled, clean whispered speech, we comple-ment the automatic WAD by using Edyson, a bulk audio annotationtool with human-in-the-loop. We also tackle a problem particular toASMR: separation of whisper from other acoustic triggers presentin the genre. We show that the proposed WAD and the efficient la-belling allows to build extensively augmented data and train a clas-sifier that extracts clean whisper segments from ASMR audio.Our large and growing dataset enables whisper-capable, data-driven speech technology and linguistic analysis. It also opens op-portunities in e.g. HCI as a resource that may elicit emotional, psy-chological and neuro-physiological responses in the listener.

Ort, förlag, år, upplaga, sidor
Rhodes, Greece: IEEE Signal Processing Society, 2023.
Nyckelord [en]
Whispered speech, WAD, human-in-the-loop, autonomous sensory meridian response
Nationell ämneskategori
Signalbehandling
Forskningsämne
Informations- och kommunikationsteknik; Människa-datorinteraktion; Datalogi; Tal- och musikkommunikation
Identifikatorer
URN: urn:nbn:se:kth:diva-328771DOI: 10.1109/ICASSP49357.2023.10095965Scopus ID: 2-s2.0-85177548955OAI: oai:DiVA.org:kth-328771DiVA, id: diva2:1777252
Konferens
ICASSP 2023 - IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Rhodes Island, Greece, 4-10 June 2023
Projekt
Multimodal encoding of prosodic prominence in voiced and whispered speech
Forskningsfinansiär
Vetenskapsrådet, 2017-02861Wallenberg AI, Autonomous Systems and Software Program (WASP)
Anmärkning

QC 20230630

Tillgänglig från: 2023-06-29 Skapad: 2023-06-29 Senast uppdaterad: 2023-11-29Bibliografiskt granskad

Open Access i DiVA

fulltext(309 kB)100 nedladdningar
Filinformation
Filnamn FULLTEXT02.pdfFilstorlek 309 kBChecksumma SHA-512
1246754b22840b542b0855847a6bd700733abd3b46434ede1769eb108308665c8c6e8936b95ff5be272f0646dd488762751b7799c4606a20de0ac8e99bb06496
Typ fulltextMimetyp application/pdf

Övriga länkar

Förlagets fulltextScopushttps://ieeexplore.ieee.org/document/10095965

Person

Pérez Zarazaga, PabloHenter, Gustav EjeMalisz, Zofia

Sök vidare i DiVA

Av författaren/redaktören
Pérez Zarazaga, PabloHenter, Gustav EjeMalisz, Zofia
Av organisationen
Tal, musik och hörsel, TMH
Signalbehandling

Sök vidare utanför DiVA

GoogleGoogle Scholar
Totalt: 100 nedladdningar
Antalet nedladdningar är summan av nedladdningar för alla fulltexter. Det kan inkludera t.ex tidigare versioner som nu inte längre är tillgängliga.

doi
urn-nbn

Altmetricpoäng

doi
urn-nbn
Totalt: 176 träffar
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf