kth.sePublikationer KTH
Ändra sökning
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf
From Static to Dynamic: Enhancing AAC with Generative Imagery and Zero-Shot TTS
KTH, Skolan för elektroteknik och datavetenskap (EECS), Intelligenta system, Tal, musik och hörsel, TMH.ORCID-id: 0009-0005-3693-511X
KTH, Skolan för elektroteknik och datavetenskap (EECS), Intelligenta system, Tal, musik och hörsel, TMH.ORCID-id: 0000-0002-0397-6442
KTH, Skolan för elektroteknik och datavetenskap (EECS), Intelligenta system, Tal, musik och hörsel, TMH.ORCID-id: 0000-0003-1175-840X
2025 (Engelska)Ingår i: Interspeech 2025, International Speech Communication Association , 2025, s. 4960-4962Konferensbidrag, Publicerat paper (Refereegranskat)
Abstract [en]

This paper presents an Augmentative and Alternative Communication (AAC) approach for minimally verbal children with Autism Spectrum Disorder. Traditional AAC systems use fixed symbol sets and pre-defined Text-to-Speech (TTS) voices, this proposed method leverages text-to-image generation and zero-shot TTS to expand expressive capabilities. Users can create visual symbols for concepts and interests, enabling richer communication. Further, zero-shot TTS allows users to upload or record personalized voices, enabling users to have individualized output. By minimizing reliance on static symbols and voices, this approach aims to increase communicative agency, personal relevance, and social validity, areas often neglected in traditional interventions. Future research will explore long-term effects on communicative skills, user satisfaction, social engagement, and adaptability across various cultural and linguistic settings, aiming to develop more dynamic and personalized AAC solutions.

Ort, förlag, år, upplaga, sidor
International Speech Communication Association , 2025. s. 4960-4962
Nyckelord [en]
AAC, Human-Computer Interaction, Speech Synthesis, TTS
Nationell ämneskategori
Språkbehandling och datorlingvistik Människa-datorinteraktion (interaktionsdesign) Annan teknik
Identifikatorer
URN: urn:nbn:se:kth:diva-372783DOI: 10.21437/Interspeech.2025-2815Scopus ID: 2-s2.0-105020070493OAI: oai:DiVA.org:kth-372783DiVA, id: diva2:2016061
Konferens
26th Interspeech Conference 2025, Rotterdam, Netherlands, Kingdom of the, August 17-21, 2025
Anmärkning

QC 20251124

Tillgänglig från: 2025-11-24 Skapad: 2025-11-24 Senast uppdaterad: 2025-11-24Bibliografiskt granskad

Open Access i DiVA

Fulltext saknas i DiVA

Övriga länkar

Förlagets fulltextScopus

Person

Francis, JulianaGustafsson, JoakimSzékely, Éva

Sök vidare i DiVA

Av författaren/redaktören
Francis, JulianaGustafsson, JoakimSzékely, Éva
Av organisationen
Tal, musik och hörsel, TMH
Språkbehandling och datorlingvistikMänniska-datorinteraktion (interaktionsdesign)Annan teknik

Sök vidare utanför DiVA

GoogleGoogle Scholar

doi
urn-nbn

Altmetricpoäng

doi
urn-nbn
Totalt: 53 träffar
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf