kth.sePublikationer KTH
Ändra sökning
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf
Swedish Medical LLM Benchmark: Development and evaluation of a framework for assessing large language models in the Swedish medical domain
KTH, Skolan för elektroteknik och datavetenskap (EECS), Intelligenta system, Tal, musik och hörsel, TMH.ORCID-id: 0000-0002-6529-1211
Department of Mathematics, ETH Zurich, Zürich, Switzerland.ORCID-id: 0009-0003-6037-803X
KTH, Skolan för elektroteknik och datavetenskap (EECS), Intelligenta system, Tal, musik och hörsel, TMH.ORCID-id: 0000-0003-1399-6604
2025 (Engelska)Ingår i: Frontiers in Artificial Intelligence, E-ISSN 2624-8212, Vol. 8, artikel-id 1557920Artikel i tidskrift (Refereegranskat) Published
Abstract [en]

Introduction: We present the Swedish Medical LLM Benchmark (SMLB), an evaluation framework for assessing large language models (LLMs) in the Swedish medical domain.

Method: The SMLB addresses the lack of language-specific, clinically relevant benchmarks by incorporating four datasets: translated PubMedQA questions, Swedish Medical Exams, Emergency Medicine scenarios, and General Medicine cases.

Result: Our evaluation of 18 state-of-the-art LLMs reveals GPT-4-turbo, Claude- 3.5 (October 2023), and the o3model as top performers, demonstrating a strong alignment between medical reasoning and general language understanding capabilities. Hybrid systems incorporating retrieval-augmented generation (RAG) improved accuracy for clinical knowledge questions, highlighting promising directions for safe implementation.

Discussion: The SMLB provides not only an evaluation tool but also reveals fundamental insights about LLM capabilities and limitations in Swedish healthcare applications, including significant performance variations between models. By open-sourcing the benchmark, we enable transparent assessment of medical LLMs while promoting responsible development through community-driven refinement. This study emphasizes the critical need for rigorous evaluation frameworks as LLMs become increasingly integrated into clinical workflows, particularly in non-English medical contexts where linguistic and cultural specificity are paramount.

 

Ort, förlag, år, upplaga, sidor
Frontiers Media SA , 2025. Vol. 8, artikel-id 1557920
Nationell ämneskategori
Språkbehandling och datorlingvistik
Identifikatorer
URN: urn:nbn:se:kth:diva-371731DOI: 10.3389/frai.2025.1557920ISI: 001536176500001PubMedID: 40718621Scopus ID: 2-s2.0-105011480129OAI: oai:DiVA.org:kth-371731DiVA, id: diva2:2007077
Anmärkning

QC 20251019

Tillgänglig från: 2025-10-17 Skapad: 2025-10-17 Senast uppdaterad: 2025-11-13Bibliografiskt granskad
Ingår i avhandling
1. Evaluation of Artificial Intelligence in the Medical Domain: Speech, Language and Applications
Öppna denna publikation i ny flik eller fönster >>Evaluation of Artificial Intelligence in the Medical Domain: Speech, Language and Applications
2025 (Engelska)Doktorsavhandling, sammanläggning (Övrigt vetenskapligt)
Abstract [en]

This doctoral thesis investigates the potential of advanced speech and languagetechnologies, driven by deep learning, to improve clinical diagnostics and patientcare, primarily within the Swedish healthcare context. The research encompasseseight key papers, which are presented across three main sections:(1) Data Capture and Machine Learning for Speech: This section explores the use ofmultimodal data and advanced speech processing techniques for clinical applications.It includes research on utilizing multimodal data capture (speech, gaze, and digitalpen input) from clinical interviews to identify potential digital biomarkers for theearly detection and differentiation of dementia (Paper A). It also develops anautomated deep learning system to evaluate the oral diadochokinesis test for motorspeech disorders, which demonstrates higher accuracy than human raters andproposes a human-in-the-loop clinical interface (Paper B). Furthermore, this sectionevaluates the performance of Automatic Speech Recognition (ASR) systems,comparing word error rates between native (L1) and non-native (L2) Swedishspeakers (Paper C), and investigates data augmentation techniques to improve ASRaccuracy for individuals with aphasia, demonstrating a path towards more inclusivetechnology (Paper D).(2) Evaluation of LLMs in the Medical Domain: This section focuses on establishingrobust methods for assessing Large Language Models (LLMs) within a medicalcontext. It details the development of a specialized Swedish Medical LLM Benchmark,comprising over 2600 questions across various medical domains, designed to assessLLM performance in a clinically relevant, language-specific manner (Paper E).Additionally, the medical reasoning capabilities of LLMs, such as DeepSeek R1, arerigorously assessed, focusing on their capacity for general medical diagnosticreasoning (Paper F).(3) Application and Best Practice for Working with AI in Healthcare: This sectionaddresses the practical, ethical, and user experience (UX) considerations forvimplementing AI in healthcare. It proposes a novel user interface paradigm throughan AI-powered journaling application designed for personal health management,illustrating a low-risk, user-centric approach to AI integration (Paper G).Complementing this, it develops harm reduction strategies for the thoughtful use ofLLMs in the medical domain, providing perspectives for both patients and cliniciansto maximize utility while mitigating risks, thereby establishing best practices forresponsible AI engagement (Paper H).Collectively, this work advances the field by providing new tools and methodologiesfor early disease detection using speech and multimodal data, establishing robustevaluation methods for ASR and LLMs in the medical domain, and offering pathwaysand frameworks for responsible, user-centered, and effective AI implementation inhealthcare.

Abstract [sv]

Denna doktorsavhandling undersöker potentialen hos avancerade tal- ochspråkteknologier, drivna av djupinlärning, för att förbättra klinisk diagnostik ochpatientvård, främst inom svensk hälso- och sjukvård. Forskningen omfattar åttacentrala artiklar, vilka presenteras inom tre huvudsakliga avsnitt:(1) Datainsamling och maskininlärning för tal: Detta avsnitt utforskar användningenav multimodal data och avancerade talbearbetningstekniker för kliniskatillämpningar. Det inkluderar forskning om användning av multimodaldatainsamling från kliniska intervjuer för att identifiera digitala biomarkörer fördemens (Artikel A). Vidare utvecklas ett automatiserat system med djupinlärning föratt utvärdera oral diadochokinesis-testet vid motoriska talrubbningar, vilket visarhögre noggrannhet än mänskliga bedömare och föreslår ett kliniskt gränssnitt medmänniska-i-loopen (Artikel B). Avsnittet utvärderar även prestandan hos system förautomatisk taligenkänning (ASR) genom att jämföra felkvoter mellan talare medsvenska som modersmål respektive andraspråk (Artikel C) och undersökerdataaugmenteringstekniker för att förbättra ASR-noggrannheten för personer medafasi (Artikel D).(2) Utvärdering av stora språkmodeller (LLM:er) inom det medicinska området:Detta avsnitt fokuserar på att etablera robusta metoder för att bedöma storaspråkmodeller (LLM:er) i en medicinsk kontext. Det beskriver utvecklingen av ettspecialiserat svenskt medicinskt LLM-benchmark, bestående av över 2600 frågorinom olika medicinska domäner, avsett att utvärdera LLM:ers prestanda på ettkliniskt relevant och språkspecifikt sätt (Artikel E). Därtill bedöms den medicinskaresonemangsförmågan hos LLM:er, såsom DeepSeek R1, noggrant, med fokus påderas kapacitet för generell medicinsk diagnostiskt resonerande (Artikel F).(3) Applikationer och bästa praxis för AI inom hälso- och sjukvård: Detta avsnittbehandlar praktiska, etiska och användarupplevelsemässiga (UX) överväganden vidimplementering av AI inom hälso- och sjukvården. Ett nyttviianvändargränssnittsparadigm föreslås genom en AI-driven applikation för att föra enpersonlig hälsodagbok. Den är utformad för personlig hälsohantering och illustreraren lågrisk, användarcentrerad strategi för AI-integration (Artikel G). Somkomplement utvecklas strategier för harm reduction för genomtänkt användning avLLM:er inom det medicinska området. Dessa strategier erbjuder perspektiv för bådepatienter och kliniker för att maximera nyttan och samtidigt minimera riskerna, ochetablerar därmed bästa praxis för ansvarsfullt AI-engagemang (Artikel H).Sammantaget bidrar detta arbete till forskningsfältet genom att tillhandahålla nyaverktyg och metoder för tidig sjukdomsdetektion med hjälp av tal- och multimodaldata, etablera robusta utvärderingsmetoder för ASR och LLM:er inom det medicinskaområdet, samt erbjuda vägledning och ramverk för en ansvarsfull, användarcentreradoch effektiv implementering av AI inom hälso- och sjukvården.

Ort, förlag, år, upplaga, sidor
Stockholm: KTH Royal Institute of Technology, 2025. s. xxi, 82
Serie
TRITA-EECS-AVL ; 2025:83
Nyckelord
Large Language Models (LLMs), Automatic Speech Recognition (ASR), Neurodegenerative Disorders, Swedish Language, Clinical Diagnostics, AI Ethics, Medical Reasoning, Multimodal Data, Tal- och språkteknologi, maskininlärning, djupinlärning, automatisk taligenkänning (ASR), stora språkmodeller (LLM), medicinsk diagnostik, digitala biomarkörer, afasi, demens, hälso- och sjukvård, användarupplevelse (UX), harm reduction, AI-integration
Nationell ämneskategori
Artificiell intelligens
Forskningsämne
Tal- och musikkommunikation
Identifikatorer
urn:nbn:se:kth:diva-371738 (URN)978-91-8106-404-9 (ISBN)
Disputation
2025-12-12, https://kth-se.zoom.us/j/69936124469, Kollegiesalen, Brinellvägen 8, Stockholm, 13:00 (Engelska)
Opponent
Handledare
Anmärkning

QC 20251022

Tillgänglig från: 2025-10-22 Skapad: 2025-10-17 Senast uppdaterad: 2025-11-13Bibliografiskt granskad

Open Access i DiVA

fulltext(1447 kB)65 nedladdningar
Filinformation
Filnamn FULLTEXT01.pdfFilstorlek 1447 kBChecksumma SHA-512
29ef9bcd2c12945aaecd185ea4c214ed8bc3ba0aad8fb8272ec0cfbffcd05e13a6bf5987871fae6dcdfc8fa20fe4c19818f3b7d3c81d975db5d5a6e02e48d2de
Typ fulltextMimetyp application/pdf

Övriga länkar

Förlagets fulltextPubMedScopus

Person

Moell, BirgerBeskow, Jonas

Sök vidare i DiVA

Av författaren/redaktören
Moell, BirgerFarestam, FabianBeskow, Jonas
Av organisationen
Tal, musik och hörsel, TMH
I samma tidskrift
Frontiers in Artificial Intelligence
Språkbehandling och datorlingvistik

Sök vidare utanför DiVA

GoogleGoogle Scholar
Antalet nedladdningar är summan av nedladdningar för alla fulltexter. Det kan inkludera t.ex tidigare versioner som nu inte längre är tillgängliga.

doi
pubmed
urn-nbn

Altmetricpoäng

doi
pubmed
urn-nbn
Totalt: 788 träffar
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf