kth.sePublications
Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Application of Large Language Models for Personalised Generative Voice Assistants in Cars: Personalisation with retrieval of background information and results trade-off
KTH, School of Electrical Engineering and Computer Science (EECS).
2024 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesisAlternative title
Användning av stora språkmodeller för personliga generativa röstassistenter i bilar : Personalisering med hämtning av bakgrundsinformation och avvägning mellan resultat (Swedish)
Abstract [en]

This thesis demonstrates the application of Large Language Models (LLMs) for an in-car personalised generative voice assistant in the domain of Point of Interest (POI) search. The LLM-based architecture covers the extraction and maintenance of user preferences as well as the personalised POI search with the retrieval of relevant preferences. The retrieval of relevant preferences is realised with an embeddingbased approach that compares the embedding of the input query with the embeddings of the preferences in the vector store. The POI search is conducted via multiple simultaneous requests to an off-the-shelf location API, with the initial user request and LLM-generated keywords that include the preferences. Additionally, a trade-off is introduced to reconcile preferences with the possible additional journey time. To test the general architecture, and particularly the POI search, multiple datasets are generated, covering an initial set of user preferences, the addition of preferences, and POI search requests. The primary evaluations are conducted with OpenAI’s GPT-3.5-Turbo, which highlights limitations in the performance of the preference maintenance system in relation to the confirmation, disagreement, or addition of new, unrelated preferences which should be further investigated. In addition, the nearby POI search is evaluated, with a response success rate of 100%. Furthermore, the trade-off demonstrates satisfactory results, with one of the top three preferences identified in 48% of cases. This comes with an average increase in drive duration of 12% compared to the non-personalised closest results. However, on average, only 2.75 out of 5 relevant preferences are retrieved, indicating potential for improvement in the personalisation of the POI search. Finally, several ablation studies were conducted on the POI search along a route, the impact of linguistic errors, and a comparison of several LLMs. The LLMs, including OpenAI’s GPT-3.5-Turbo and GPT-4-Turbo, as well as the open-source models Llama 3 70B by Meta and Mixtral 8x7B by Mistral, were compared on response quality, inference time, and cost. In order to achieve the optimal inference time for the open-source models, the Groq platform is employed, promising state-ofthe- art inference times, which however could not be confirmed during testing. Overall, GPT-3.5-Turbo represents the optimal overall model, although it lacks response quality in certain tasks in comparison to the state-of-the-art GPT-4-Turbo. To overcome these quality issues, it is recommended that a task-specific model selection is employed. Furthermore, it is anticipated that the continuous development of LLMs will result in models with enhanced quality, reduced cost, and improved inference time. This enables improved performance and extended use-cases of LLM-based voice assistants.

Abstract [sv]

Denna avhandling demonstrerar tillämpningen av Large Language Models (LLMs) för en personaliserad generativ röstassistent i bilen inom området Point of Interest (POI) sökning. Den LLM-baserade arkitekturen omfattar extrahering och underhåll av användarens preferenser samt personlig POI-sökning med hämtning av relevanta preferenser. Hämtningen av relevanta preferenser sker med en inbäddningsbaserad metod som jämför inbäddningen av den ingående frågan med inbäddningen av preferenserna i vektorlagret. POI-sökningen utförs via flera samtidiga förfrågningar till ett API för lokalisering, med den första användarförfrågan och LLM-genererade nyckelord som inkluderar preferenserna. Dessutom införs en avvägning för att förena preferenser med den eventuella extra restiden. För att testa den allmänna arkitekturen, och särskilt POI-sökningen, genereras flera dataset som täcker en initial uppsättning användarpreferenser, tillägg av preferenser och POI-sökförfrågningar. De primära utvärderingarna genomförs med OpenAI:s GPT-3.5-Turbo, som belyser begränsningar i preferensunderhållssystemets prestanda i förhållande till bekräftelse, oenighet eller tillägg av nya, orelaterade preferenser, vilket bör undersökas ytterligare. Dessutom utvärderas sökningen efter POI:er i närheten, med en svarsfrekvens på 100%. Dessutom visar avvägningen tillfredsställande resultat, med en av de tre bästa preferenserna identifierad i 48% av fallen. Detta innebär en genomsnittlig ökning av körtiden med 12% jämfört med de icke-personaliserade närmaste resultaten. I genomsnitt hämtas dock endast 2,84 av 5 relevanta preferenser, vilket tyder på att det finns utrymme för förbättringar när det gäller att personanpassa POI-sökningen. Slutligen genomfördes flera ablationsstudier på POI-sökningen längs en rutt, inverkan av språkliga fel och en jämförelse av flera LLM:er. LLM:erna, inklusive OpenAI:s GPT-3.5-Turbo och GPT-4-Turbo, samt modellerna med öppen källkod Llama 3 70B från Meta och Mixtral 8x7B från Mistral, jämfördes med avseende på svarskvalitet, inferenstid och kostnad. För att uppnå den optimala inferenstiden för modellerna med öppen källkod används Groq-plattformen, som utlovar toppmoderna inferenstider, som dock inte kan bekräftas under testningen. Sammantaget representerar GPT-3.5-Turbo den optimala övergripande modellen, även om den saknar svarskvalitet i vissa uppgifter i jämförelse med den toppmoderna GPT-4-Turbo. För att komma till rätta med dessa kvalitetsproblem rekommenderas att ett uppgiftsspecifikt modellval används. Vidare förväntas den kontinuerliga utvecklingen av LLM resultera i modeller med förbättrad kvalitet, lägre kostnad och kortare inferenstid.

Place, publisher, year, edition, pages
2024. , p. 76
Series
TRITA-EECS-EX ; 2024:443
Keywords [en]
Large Language Model, Generative Voice Assistant, Personalisation, Generative AI, Automotive
Keywords [sv]
Stor språkmodell, Generativ röstassistent, Personalisering, Generativ AI, Fordonsindustrin
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-356191OAI: oai:DiVA.org:kth-356191DiVA, id: diva2:1912149
External cooperation
BMW AG
Supervisors
Examiners
Available from: 2024-11-18 Created: 2024-11-11 Last updated: 2024-11-18Bibliographically approved

Open Access in DiVA

No full text in DiVA

By organisation
School of Electrical Engineering and Computer Science (EECS)
Computer and Information Sciences

Search outside of DiVA

GoogleGoogle Scholar

urn-nbn

Altmetric score

urn-nbn
Total: 121 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf