kth.sePublications KTH
Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
The Right Voice for the Right Task: Evaluation of Conversational AI for Industrial Training
KTH, School of Electrical Engineering and Computer Science (EECS).
2025 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesisAlternative title
Rätt Röst för Rätt Uppgift : Utvärdering av Konverserande AI för Industriell Utbildning (Swedish)
Abstract [en]

As industries increasingly adopt predictive maintenance (PdM) strategies under Industry 4.0 and 5.0 frameworks, there is a growing need for user-centered technologies that support industrial training. Conversational AI (CAI) has proven effective in educational settings, however its potential in industrial settings, where higher precision and reliability are required, remains underexplored. This thesis explores the potential of conversational AI (CAI), particularly voice-driven digital intelligent assistants (DIAs), in supporting industrial training in a pharmaceutical context. Specifically, this study investigates how two design dimensions– AI persona (Expert Operator vs. Machine) and voice embodiment (Diegetic vs. Disembodied) -—affect usability, cognitive load, trust, and task performance during manual operation. A functional prototype using the OpenAI RealTime API was developed, and evaluated through a 2 × 2 within-subjects user study with nine domain-relevant participants: both novices and expert operators. Based on self-reported data from structured questionnaires and semi-structured interviews, results indicate no single optimal DIA configuration for all users or contexts. The Expert Operator persona was generally preferred for trust and engagement, while the Machine persona provided clearer instructions for some users. Diegetic voices were perceived as more intuitive, but disembodied voices improved focus and privacy. These findings highlight the need for flexible, user-adaptive CAI designs that accommodate individual preferences and experience levels. This study offers initial insights into the user-centric design of such systems and proposes guidelines for persona and embodiment design that support the autonomy of the trainees.

Abstract [sv]

När industrin i allt större utsträckning antar prediktivt underhåll (PdM) under ramen för Industri 4.0 och 5.0 ökar behovet av användarcentrerade teknologier som stödjer industriell utbildning. Konversationell AI (CAI) har visat sig effektiv inom utbildningsmiljöer, men dess potential inom industriella sammanhang, där högre precision och tillförlitlighet krävs, är fortfarande dåligt utforskad. Denna avhandling undersöker potentialen hos konversationell AI (CAI), särskilt röststyrda digitala intelligenta assistenter (DIA), för att stödja industriell utbildning inom en farmaceutisk kontext. Specifikt studeras hur två designaspekter – AI-persona (Expertoperatör vs. Maskin) och röstförkroppsligande (Diegetisk vs. Odiegetisk) – påverkar användbarhet, kognitiv belastning, förtroende och uppgiftsprestation vid manuell drift. En fungerande prototyp byggd med OpenAI RealTime API utvecklades och utvärderades genom en 2 × 2 inompersonsstudie med nio deltagare med relevant domänkunskap: både nybörjare och expertoperatörer. Baserat på självrapporterade data från strukturerade enkäter och semi-strukturerade intervjuer visar resultaten att det inte finns någon enskild optimal DIA-konfiguration för alla användare eller sammanhang. Expertoperatörs-personan föredrogs generellt för förtroende och engagemang, medan Maskin-personan gav tydligare instruktioner för vissa användare. Diegetiska röster uppfattades som mer intuitiva, men odiegetiska röster förbättrade fokus och integritet. Dessa fynd understryker behovet av flexibla, användaranpassade CAI-designs som tar hänsyn till individuella preferenser och erfarenhetsnivåer. Studien erbjuder initiala insikter i användarcentrerad design av sådana system och föreslår riktlinjer för persona- och förkroppsligandedesign som stödjer traineers självständighet.

Place, publisher, year, edition, pages
2025. , p. 54
Series
TRITA-EECS-EX ; 2025:664
Keywords [en]
Conversational Agents, Agent Embodiment, LLMs, Industrial Training
Keywords [sv]
Konverserande agenter, Agentförkroppsligande, Stora språkmodeller, Industriell utbildning
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-371536OAI: oai:DiVA.org:kth-371536DiVA, id: diva2:2005917
External cooperation
Astrazeneca
Supervisors
Examiners
Available from: 2025-11-07 Created: 2025-10-12 Last updated: 2025-11-07Bibliographically approved

Open Access in DiVA

fulltext(4200 kB)60 downloads
File information
File name FULLTEXT01.pdfFile size 4200 kBChecksum SHA-512
becc62337a8f9fc86a71ceae075f2927c837f931734c49ba850af0b31191eca05eb0038c02ce94b5cc7f4aadb4676e56c2ba389236c6ea981e7439b0756d736f
Type fulltextMimetype application/pdf

By organisation
School of Electrical Engineering and Computer Science (EECS)
Computer and Information Sciences

Search outside of DiVA

GoogleGoogle Scholar
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 433 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf