kth.sePublications
Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Adaptive Robot Presenters: Modelling Grounding in Multimodal Interaction
KTH, School of Electrical Engineering and Computer Science (EECS), Intelligent systems, Speech, Music and Hearing, TMH.ORCID iD: 0000-0003-0112-6732
2023 (English)Doctoral thesis, monograph (Other academic)
Abstract [en]

This thesis addresses the topic of grounding in human-robot interaction, that is, the process by which the human and robot can ensure mutual understanding. To explore this topic, the scenario of a robot holding a presentation to a human audience is used, where the robot has to process multimodal feedback from the human in order to adapt the presentation to the human's level of understanding.

First, the use of behaviour trees to model real-time interactive processes of the presentation is addressed. A system based on the behaviour tree architecture is used in a semi-automated Wizard-of-oz experiment, showing that audience members prefer an adaptive system to a non-adaptive alternative.

Next, the thesis addresses the use of knowledge graphs to represent the content of the presentation given by the robot. By building a small, local knowledge graph containing properties (edges) that represent facts about the presentation, the system can iterate over that graph and consistently find ways to refer to entities by referring to previously grounded content. A system based on this architecture is implemented, and an evaluation using simulated users is presented. The results show that crowdworkers comparing different adaptation strategies are sensitive to the types of adaptation enabled by the knowledge graph approach.

In a face-to-face presentation setting, feedback from the audience can potentially be expressed through various modalities, including speech, head movements, gaze, facial gestures and body pose. The thesis explores how such feedback can be automatically classified. A corpus of human-robot interactions is annotated, and models are trained to classify human feedback as positive, negative or neutral. A relatively high accuracy is achieved by training simple classifiers with signals found mainly in the speech and head movements.

When knowledge graphs are used as the underlying representation of the system's presentation, some consistent way of generating text, that can be turned into speech, is required. This graph-to-text problem is explored by proposing several methods, both template-based and methods based on zero-shot generation using large language models (LLMs). A novel evaluation method using a combination of factual, counter-factual and fictional graphs is proposed. 

Finally, the thesis presents and evaluates a fully automated system using all of the components above. The results show that audience members prefer the adaptive system to a non-adaptive system, matching the results from the beginning of the thesis. However, we note that clear learning results are not found, which means that the entertainment aspects of the presentation are perhaps more prominent than the learning aspects.

Abstract [sv]

Denna avhandling behandlar ämnet multimodal kommunikativ grundning (grounding) mellan robotar och människor. Detta är processen för hur en människa och en robot kan säkerställa att de har en gemensam förståelse. För att utforska detta ämne ämne, används ett scenario där en robot håller en presentation för en mänsklig publik. Roboten måste analysera multimodala signaler från människan för att anpassa presentationen till människans nivå av förståelse.

Först undersöks hur beteendeträd kan användas för att modellera realtidsaspekterna av interaktionen mellan robotpresentatören och dess publik. Ett system som baseras på beteendeträdsarkitekturen används i ett delvis automatiskt, delvis människostyrt experiment, där det visas att publikmedlemmar i labbmiljö föredrar ett system som anpassar presentationen till deras reaktioner över ett som inte anpassar sin presentation.

Efter detta, urdersöker också avhandlingen hur kunskapsgrafer kan användas för att representera innehållet som roboten presenterar. Om en liten, lokal kunskapsgraf byggs så att den innehåller relationer (kanter) som representerar fakta i presentationen, så kan roboten iterera över grafen och konsekvent hitta refererande uttryck som använder sig av kunskap som publiken redan har. Ett system som baseras på denna arkitektur implementeras, och ett experiment med simulerade interaktioner utförs och presenteras. Experimentets resultat visar att utvärderare som jämför olika anpassningsstrategier föredrar ett system som kan utföra den sortens anpassning som grafmetoden tillåter. 

Publikens reaktioner i ett presentationsscenario kan ske genom olika modaliteter, som tal, huvudrörelser, blickriktning, ansiktsuttryck och kroppsspråk. För att klassificera kommunikativ återmatning (feedback) av dessa modaliteter från presentationspubliken, utforskas hur sådana signaler kan analyseras automatiskt. En datamängd med interaktioner mellan en människa och vår robot annoteras, och statistiska modeller tränas för att klassificera mänskliga återmatningssignaler från flera olika modaliteter som positiva, negativa eller neutrala. En jämförelsevis hög klassifikationsprecision uppnås genom att träna enklare klassifikationsmodeller på relativt få klasser av signaler i tal- och huvudrörelsemodaliteterna. Detta antyder att museiscenariot med en robotpresentatör inte uppmuntrar publiken att använda komplicerade, mångtydiga kommunikativa beteenden.

När kunskapsgrafer används som presentationssystemets informationsrepresentation, behövs det konsekventa metoder för att generera text som kan omvandlas till tal, från grafdata. Graf-till-text-problemet utforskas genom att föreslå flera olika metoder, både enklare mall-baserade sådana och mer avancerade metoder baserade på stora språkmodeller (LLM:er). Genom att föreslå en ny utvärderingsmetod där sanna, fiktiva och falska grafer genereras, visar vi också att sanningshalten i vad som uttrycks påverkar kvaliteten i texten som LLM-metoderna ger från kunskapsgrafdata.

Avhandlingen använder sig slutligen av alla de ovanstående föreslagna komponenterna i ett och samma helautomatiska presentationssystem. Resultaten visar att publikmedlemmar föredrar ett system som anpassar sin presentation över ett som inte anpassar sin presentation, vilket speglar resultaten från början av avhandlingen. Vi ser också att tydliga inlärningsresultat uteblir i detta experiment, vilket kanske kan tolkas som att publikmedlemmarna i museiscenariot snarare letar efter en underhållare än efter en lärare som presentatör.

Place, publisher, year, edition, pages
Stockholm: KTH Royal Institute of Technology, 2023. , p. 205
Series
TRITA-EECS-AVL ; 2023:70
Keywords [en]
Human-robot interaction, Dialogue, Presentation, Museum, Grounding, Multimodal, Feedback, Classification, Knowledge graphs, KG, KG-to-text, WebNLG, System, Learning, Large Language Model, LLM
Keywords [sv]
människa-robot-interaktion, hri, dialog, presentation, museum, grundning, multimodal, multimodalitet, återmatning, klassifikation, kunskapsgraf, kg, kg-till-text, data-tilltext, webnlg, system, inlärning, lärande. stor språkmodell, llm
National Category
Language Technology (Computational Linguistics) Robotics Computer and Information Sciences
Research subject
Speech and Music Communication
Identifiers
URN: urn:nbn:se:kth:diva-338178ISBN: 978-91-8040-728-1 (print)OAI: oai:DiVA.org:kth-338178DiVA, id: diva2:1805218
Public defence
2023-11-10, https://kth-se.zoom.us/j/62979383325?pwd=VnJ1a1N6azZpaGxvZVZmVkU1NE5ZUT09, F3, Lindstedtsvägen 26, Stockholm, 14:00 (English)
Opponent
Supervisors
Funder
Swedish Energy Agency, P2020-90133Swedish Foundation for Strategic Research, RIT15-0133
Note

QC 20231017

Available from: 2023-10-17 Created: 2023-10-16 Last updated: 2023-10-19Bibliographically approved

Open Access in DiVA

Fulltext(44566 kB)304 downloads
File information
File name FULLTEXT01.pdfFile size 44566 kBChecksum SHA-512
2244b9f00f4b333d47c62a7758e9e21cdeb24fd1872b9ee83eb6ac666281d6d2d1f17296205b70b000d21371b623f9724d83a38474d4dc96e42905a448eaaa6e
Type fulltextMimetype application/pdf

Authority records

Axelsson, Agnes

Search in DiVA

By author/editor
Axelsson, Agnes
By organisation
Speech, Music and Hearing, TMH
Language Technology (Computational Linguistics)RoboticsComputer and Information Sciences

Search outside of DiVA

GoogleGoogle Scholar
Total: 304 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

isbn
urn-nbn

Altmetric score

isbn
urn-nbn
Total: 1308 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf