Open this publication in new window or tab >>2023 (English)Doctoral thesis, monograph (Other academic)
Abstract [en]
Turn-taking in spoken dialogue represents a complex cooperative process wherein participants use verbal and non-verbal cues to coordinate who speaks and who listens, to anticipate speaker transitions, and to produce backchannels (e.g., “mhm”, “uh-huh”) at the right places. This thesis frames turntaking as the modeling of voice activity dynamics of dialogue interlocutors, with a focus on predictive modeling of these dynamics using both text- and audio-based deep learning models. Crucially, the models operate incrementally, estimating the activity dynamics across all potential dialogue states and interlocutors throughout a conversation. The aim is for these models is to increase the responsiveness of Spoken Dialogue Systems (SDS) while minimizing interruption. However, a considerable focus is also put on the analytical capabilities of these models to serve as data-driven, model-based tools for analyzing human conversational patterns in general.
This thesis focuses on the development and analysis of two distinct models of turn-taking: TurnGPT, operating in the verbal domain, and the Voice Activity Projection (VAP) model in the acoustic domain. Trained with general prediction objectives, these models offer versatility beyond turn-taking, enabling novel analyses of spoken dialogue. Utilizing attention and gradientbased techniques, this thesis sheds light on the crucial role of context in estimating speaker transitions within the verbal domain. The potential of incorporating TurnGPT into SDSs – employing a sampling-based strategy to predict upcoming speaker transitions from incomplete text, namely words yet to be transcribed by the ASR – is investigated to enhance system responsiveness. The VAP model, which predicts the joint voice activity of both dialogue interlocutors, is introduced and adapted to handle stereo channel audio. The model’s prosodic sensitivity is examined both in targeted utterances and in extended spoken dialogues. This analysis reveals that while intonation is crucial for distinguishing syntactically ambiguous events, it plays a less important role in general turn-taking within long-form dialogues. The VAP model’s analytical capabilities are also highlighted, to assess the impact of filled pauses and serve as an evaluation tool for conversational TTS, determining their ability to produce prosodically relevant turn-taking cues.
Abstract [sv]
Turtagning inom talad dialog involverar en komplex sammarbetsprocess där talarna använder sig av prosodiska och semantiska signaler för att koordinera vem som ska tala och vem som lyssnar, förutse turbyten och producera återkopplingssignaler (t.ex. “mhm”, “uh-huh”, m.m.) på rätt ställen. Denna avhandling modellerar turtagning i termer av röstaktivitetsdynamik hos talarna, med fokus på prediktiv modellering av denna dynamik med både textoch ljudbaserade maskininlärningsmodeller. Dessa modeller arbetar inkrementellt och uppskattar aktivitetsdynamiken över alla potentiella dialogtillstånd och samtalsparter under en konversation. Målet är att dessa modeller ska öka responsiviteten hos talbaserade dialogsystem samtidigt som de minimerar hur ofta systemet avbryter användaren. Utöver dessa tillämpningar läggs även ett betydande fokus på att utforska hur dessa modeller kan användas som datadrivna, modellbaserade verktyg för att analysera generella mänskliga konversationsmönster.
Denna avhandling fokuserar på implementering och analys av två distinkta modeller för turtaking: TurnGPT, som processar verbal information (text), och Voice Activity Projection (VAP), som processar aukustisk information (tal). Modellerna är tränade genom att optimera generella prediktionsmål, vilket möjliggör användningsområden bortom enbart turtagning, t.ex. för nyskapande analyser av talad dialog. Genom att använda uppmärksamhets- och gradientbaserade tekniker belyser denna avhandling den avgörande rollen av kontext när det gäller att klassificera talarövergångar inom den verbala domänen. Möjligheten att integrera TurnGPT i dialogsystem – genom att använda en samplingbaserad strategi för att förutspå kommande turbyten från ofullständig text, d.v.s. ord som ännu inte transkriberats av taligenkänningen – undersöks för att förbättra systemets responsivitet. VAP-modellen, som modellerar båda dialogdeltagarnas gemensamma röstaktivitet, introduceras och anpassas för att hantera ljud i stereo. Modellens prosodiska känslighet undersöks både i specifikt valda yttranden och inom längre dialoger. Denna analys visar att medan intonation är avgörande för att särskilja syntaktiskt tvetydiga yttranden, spelar den en mindre viktig roll i generell turtagning inom längre dialoger. VAP-modellens analytiska kapacitet lyfts fram för att bedöma effekten av fyllda pauser och som utvärderingsverktyg för konversationell talsyntes, detta för att bestämma deras förmåga att producera prosodiskt relevanta turtagninssignaler.
Place, publisher, year, edition, pages
Sweden: KTH Royal Institute of Technology, 2023. p. ix, 183
Series
TRITA-EECS-AVL ; 2023:81
Keywords
turn-taking, spoken dialog system, human computer interaction, Turtagning, talad dialog, människa-data interaktion
National Category
Natural Language Processing Computer Sciences
Research subject
Computer Science; Human-computer Interaction; Speech and Music Communication
Identifiers
urn:nbn:se:kth:diva-339630 (URN)978-91-8040-756-4 (ISBN)
Public defence
2023-12-08, F3, Lindstedtsvägen 26, Stockholm, 10:00 (English)
Opponent
Supervisors
Funder
Riksbankens Jubileumsfond, P20-0484Swedish Research Council, 2020-03812
Note
QC 20231115
2023-11-152023-11-152025-02-01Bibliographically approved