Evaluation of Retrieval-Augmented Generation in Medical Question Answering Tasks
2024 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE credits
Student thesisAlternative title
Utvärdering av hämtningsförstärkt generation i medicinska fråge-svar uppgifter (Swedish)
Abstract [en]
Recent developments and changes in Large Language Models (LLMs) have great potential for application in the field of medical question answering (QA), particularly through Retrieval-Augmented Generation (RAG) systems. These systems address challenges in providing reliable and personalized medical information by integrating authoritative sources. However, evaluating their performance remains a critical challenge, especially in sensitive medical contexts where accuracy is critical. Current evaluation techniques often rely on heavy human annotations, making the process time-consuming and labor- intensive. While using LLMs as evaluators has been proposed as an alternative to reduce the manual workload, its reliability remains questionable. This thesis introduces a new evaluation method to solve this problem, tested by constructing various RAG systems, including Naive RAG and Hypothetical Document Embeddings (HyDE) RAG. The evaluation leverages two different LLMs and is based on a benchmark dataset specifically designed for yes/no medical questions, with an LLM-only system serving as the baseline. Metrics used for evaluation include Accuracy, Precision, Recall, F1 score, Mean Accuracy (MAP), and Mean Reciprocity Rating (MRR) to measure retrieval and generation performance comprehensively. In addition, the study explored the impact of different search relevance thresholds and different models on the RAG system, providing insights for further optimization. The experimental results show that RAG systems greatly improve the accuracy and reliability of medical information retrieval compared to baseline models. The choice of retrieval relevance thresholds and the selection of different LLMs also impact the performance of RAG systems. The paper proposes a robust evaluation method for RAG systems in medical QA and lays the foundation for extending this method into other knowledge- intensive domains. Such reliable evaluations will contribute to developing more effective and reliable medical QA systems, benefiting both healthcare providers and patients.
Abstract [sv]
Den senaste tidens utveckling och förändringar inom Stora språkmodeller (LLMs) har stor potential för tillämpning inom området medicinsk frågesvar (QA), särskilt genom Retrieval-Augmented Generation (RAG) system. Dessa system hanterar utmaningar när det gäller att tillhandahålla tillförlitlig och personlig medicinsk information genom att integrera auktoritativa källor. Att utvärdera deras prestanda är dock fortfarande en stor utmaning, särskilt i känsliga medicinska sammanhang där noggrannhet är avgörande. Nuvarande utvärderingstekniker förlitar sig ofta på tunga mänskliga kommentarer, vilket gör processen tidskrävande och arbetsintensiv. Att använda LLM:er som utvärderare har föreslagits som ett alternativ för att minska den manuella arbetsbelastningen, men dess tillförlitlighet är fortfarande tveksam. Denna avhandling introducerar en ny utvärderingsmetod för att lösa detta problem, testad genom att konstruera olika RAG-system, inklusive Naive RAG och Hypothetical Document Embeddings (HyDE) RAG. Utvärderingen baseras på en referensdatauppsättning som är särskilt utformad för medi- cinska ja/nej-frågor, med ett LLM-only-system som fungerar som baslinje. Mätvärden som används för utvärdering inkluderar noggrannhet, precision, återkallande, F1 poäng, genomsnittlig noggrannhet (MAP) och genomsnittlig ömsesidighet (MRR) för att på ett heltäckande sätt mäta prestanda för hämtning och generering. Dessutom undersökte studien effekterna av olika tröskelvärden för sökrelevans och olika modeller på RAG-systemet, vilket gav insikter för ytterligare optimering. De experimentella resultaten visar att RAG-systemen kraftigt förbättrar noggrannheten och tillförlitligheten vid medicinsk informationssökning jämfört med baslinjemodeller. Valet av tröskelvärden för hämtningsrelevans och valet av olika LLM påverkar också RAG-systemens prestanda. I artikeln föreslås en robust utvärderingsmetod för RAG-system inom medicinsk kvalitetssäkring och grunden läggs för att utvidga denna metod till andra kunskapsintensiva domäner. Sådana tillförlitliga utvärderingar kommer att bidra till utvecklingen av mer effektiva och tillförlitliga medicinska kvalitets- säkringssystem, vilket gynnar både vårdgivare och patienter.
Place, publisher, year, edition, pages
2024. , p. 65
Series
TRITA-EECS-EX ; 2024:928
Keywords [en]
Medical Question Answering, Large Language Models, Retrieval-Augmented Generation, Evaluation
Keywords [sv]
medicinsk frågesvar, Stora språkmodeller, Retrieval-Augmented Generation, Utvärdering.
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-361054OAI: oai:DiVA.org:kth-361054DiVA, id: diva2:1943548
Supervisors
Examiners
2025-03-172025-03-112025-03-17Bibliographically approved