Ändra sökning
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • harvard1
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf
An instantaneous vector representation of delta pitch for speaker-change prediction in conversational dialogue systems
KTH, Skolan för datavetenskap och kommunikation (CSC), Tal, musik och hörsel, TMH, Tal-kommunikation. KTH, Skolan för datavetenskap och kommunikation (CSC), Centra, Centrum för Talteknologi, CTT.ORCID-id: 0000-0001-9327-9482
KTH, Skolan för datavetenskap och kommunikation (CSC), Tal, musik och hörsel, TMH, Tal-kommunikation. KTH, Skolan för datavetenskap och kommunikation (CSC), Centra, Centrum för Talteknologi, CTT.
2008 (Engelska)Ingår i: 2008 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING, New York: IEEE , 2008, s. 5041-5044Konferensbidrag, Publicerat paper (Refereegranskat)
Abstract [en]

As spoken dialogue systems become deployed in increasingly complex domains, they face rising demands on the naturalness of interaction. We focus on system responsiveness, aiming to mimic human-like dialogue flow control by predicting speaker changes as observed in real human-human conversations. We derive an instantaneous vector representation of pitch variation and show that it isamenable to standard acoustic modeling techniques. Using a small amount of automatically labeled data, we train models which significantly outperform current state-of-the-art pause-only systems, and replicate to within 1% absolute the performance of our previously published hand-crafted baseline. The new system additionally offers scope for run-time control over the precision or recall of locations at which to speak.

Ort, förlag, år, upplaga, sidor
New York: IEEE , 2008. s. 5041-5044
Serie
International Conference on Acoustics Speech and Signal Processing (ICASSP), ISSN 1520-6149 ; 1-12
Nyckelord [en]
Frequency domain analysis, Signal representation, Speech communication, Speech processing, User interfaces
Nationell ämneskategori
Datavetenskap (datalogi) Språkteknologi (språkvetenskaplig databehandling)
Identifikatorer
URN: urn:nbn:se:kth:diva-51994DOI: 10.1109/ICASSP.2008.4518791ISI: 000257456703244Scopus ID: 2-s2.0-51449093800ISBN: 978-1-4244-1483-3 (tryckt)OAI: oai:DiVA.org:kth-51994DiVA, id: diva2:465288
Konferens
2008 IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP; Las Vegas, NV; 31 March 2008 through 4 April 2008
Anmärkning
tmh_import_11_12_14 QC 20111227Tillgänglig från: 2011-12-14 Skapad: 2011-12-14 Senast uppdaterad: 2018-01-12Bibliografiskt granskad

Open Access i DiVA

Fulltext saknas i DiVA

Övriga länkar

Förlagets fulltextScopus

Personposter BETA

Edlund, Jens

Sök vidare i DiVA

Av författaren/redaktören
Edlund, JensHeldner, Mattias
Av organisationen
Tal-kommunikationCentrum för Talteknologi, CTT
Datavetenskap (datalogi)Språkteknologi (språkvetenskaplig databehandling)

Sök vidare utanför DiVA

GoogleGoogle Scholar

doi
isbn
urn-nbn

Altmetricpoäng

doi
isbn
urn-nbn
Totalt: 39 träffar
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • harvard1
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf