kth.sePublications
Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Exploring the use of large language models in registering software as a medical device.: A qualitative study from the perspectives of legal experts in the European Medical Devices Regulation.
KTH, School of Engineering Sciences in Chemistry, Biotechnology and Health (CBH), Biomedical Engineering and Health Systems.
2024 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesisAlternative title
Utforskning av användningen av stora språkmodeller vid registrering av programvara som medicinteknisk produkt. : En kvalitativ studie ur perspektiv av uppfyllandet av den europeiska medicintekniska förordningen. (Swedish)
Abstract [en]

Background:    The current regulations that govern medical devices in Europe aim to ensure the highest level of safety and efficacy through extensive processes that include detailed guidelines and standards. Some organizations that develop software for medical or health-related purposes find it challenging to market their products in Europe, fulfill the regulatory demands, and ensure needed compliance with European legislation. Even with the potential of Large Language Model (LLM) chatbots to increase efficiency and accuracy and streamline the regulatory processes, their role is not yet studied.

Aim: To explore the potential of using commercially available nonspecific LLM chatbots to provide guidance during the medical device software (MDSW) marketing process and to fulfill the regulatory demands of MDSW according to the European Medical Device Regulations (MDR) in order to reach the European market by assessing the answers provided by LLM chatbots to product-related questions accuracy and completeness 

Methods: Five scenarios with two prompts on each MDSW were created and presented to Google Gemini 1.5, OpenAI Chat GPT4o, and a human expert to respond to. The responses were then evaluated by experts using an online survey including a 1-5 Likert score for accuracy and 1-3 Likert score for completeness, in addition to open-end questions. The results were summarized using descriptive analysis and thematic analysis.

Results:  The median of accuracy for the medical classification was for Google Gemini 4 for OpenAI Chat GPT  4 and the human expert had 4. The median accuracy scores for the go-to-market were for Google Gemini 4 for OpenAI Chat GPT 4 and for the human expert 4. The completeness scores for the medical classification was for Google Gemini 2 for OpenAI Chat GPT  2 and the human expert had 1. The median of completeness scores for the go-to-market were for Google Gemini 2 for OpenAI Chat GPT 3 and for the human expert 1. The theme accuracy had the following subthemes: General high-level responses, Precise responses, isleading responses, and Wrong responses. The theme of completeness had: Technically weak, Medically weak, and Adequate responses.

Conclusion:     The available commercial LLM chatbots provide a good start to learning about the requirements for medical device registration of software, but the LLM chatbots' answers are still insufficient and, in some cases, not accurate. The research project could not examine the conversational impact in interactions beyond two prompts, or to test more than two available commercial LLM chatbots. There is a potential to build a specialized LLM chatbot that is trained on specific relevant data from real applications for registering software as a medical device to provide accurate and complete advice that guides the process of registering software as a medical device.

Abstract [sv]

Bakgrund: Den nuvarande regleringen som styr medicintekniska produkter i Europa (MDR) syftar till att säkerställa högsta nivå av säkerhet och effektivitet genom omfattande processer som inkluderar detaljerade riktlinjer och standarder. Vissa organisationer som utvecklar programvara för medicinska eller hälso-relaterade ändamål finner det utmanande att marknadsföra sina produkter i Europa, uppfylla regulatoriska krav och säkerställa nödvändig överensstämmelse med europeisk lagstiftning. Även om stora språkmodeller (LLM) har potential att öka effektiviteten och noggrannheten samt effektivisera de regulatoriska processerna, är deras roll ännu inte studerad.

Syfte: Att utforska potentialen av att använda kommersiellt tillgängliga ospecifika LLM-chatbotar för att ge vägledning under marknadsföringsprocessen av medicinteknisk programvara (MDSW) och för att uppfylla regulatoriska krav enligt den europeiska medicintekniska förordningen (MDR) i syfte att nå den europeiska marknaden genom att bedöma chatbotarnas svar på produktrelaterade frågor vad gäller noggrannhet och fullständighet.

Metoder: Fem scenarier med två prompt per MDSW skapades och presenterades för Google Gemini 1.5, OpenAI Chat GPT-4, och en mänsklig expert att svara på. Svaren utvärderades sedan av experter med hjälp av en onlineundersökning som inkluderade 1-5 Likert-skala för noggrannhet och 1-3 Likert-skala för fullständighet, samt öppna frågor. Resultaten sammanfattades med hjälp av deskriptiv analys och tematisk analys.

Resultat: Medianen av noggrannhet för medicinsk klassificering var för Google Gemini 4, för OpenAI Chat GPT 4 och den mänskliga experten var 4. Medianen av noggrannhetspoängen för go-to-market var för Google Gemini 4, för OpenAI Chat GPT 4 och för den mänskliga experten 4. Fullständighetspoängen för klassificering av den medicintekniska produkten var för Google Gemini 2, för OpenAI Chat GPT 2 och den mänskliga experten hade 1. Medianen av fullständighetspoängen för go-to-market var för Google Gemini 2, för OpenAI Chat GPT 3 och för den mänskliga experten 1. Temat noggrannhet hade följande underteman: Generella hög-nivå svar, Exakta svar, vilseledande svar, och felaktiga svar. Temat fullständighet hade följande: tekniskt svaga, medicinskt svaga, och adekvata svar.

Slutsats: De tillgängliga kommersiella LLM-chatbotarna ger en bra utgångspunkt för att lära sig om kraven för registrering av programvara som medicinteknisk produkt, men LLM-chatbotarnas svar är fortfarande otillräckliga och i vissa fall inte korrekta. Forskningsprojektet kunde inte undersöka den konversativa effekten i interaktioner bortom två prompts, eller testa mer än två tillgängliga kommersiella LLM-chatbotar. Det finns en potential att utveckla en specialiserad LLM-chatbot som tränas på specifik relevant data från verkliga ansökningar för registrering av programvara som medicinteknisk produkt för att ge korrekta och fullständiga råd som vägleder processen för registrering av programvara som medicinteknisk produkt.

Place, publisher, year, edition, pages
2024. , p. 49
Series
TRITA-CBH-GRU ; 2024:334
Keywords [en]
Chat GPT, Large Language Models, Medical Device Regulations, Google Gemini, Chatbot, digitalization
Keywords [sv]
GPT-4
National Category
Medical Engineering Computer and Information Sciences Other Computer and Information Science Computer Systems
Identifiers
URN: urn:nbn:se:kth:diva-354834OAI: oai:DiVA.org:kth-354834DiVA, id: diva2:1905605
Educational program
Master of Science - Medical Engineering
Supervisors
Examiners
Available from: 2024-10-16 Created: 2024-10-14 Last updated: 2024-10-16Bibliographically approved

Open Access in DiVA

fulltext(669 kB)157 downloads
File information
File name FULLTEXT01.pdfFile size 669 kBChecksum SHA-512
0744ef8630f59c8f8ebea41bd4784884108d14b90b48d2cc0c4303422f6624d544e8f735b95595278059bb633b4a4d76de9a0ed9fc5885bc9ab6db38d7f74608
Type fulltextMimetype application/pdf

By organisation
Biomedical Engineering and Health Systems
Medical EngineeringComputer and Information SciencesOther Computer and Information ScienceComputer Systems

Search outside of DiVA

GoogleGoogle Scholar
Total: 157 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 227 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf