Informationsextrahering från långa PDF-dokument för effektivt frågebesvarande: En jämförande studie av system för informationsutvinning och frågebesvarande över finansiella dokument med stora språkmodeller
2026 (Swedish)Independent thesis Basic level (degree of Bachelor), 10 credits / 15 HE credits
Student thesisAlternative title
Information Extraction from Long PDF Documents for Efficient Question Answering : A Comparative Study of Information Extraction and Question Answering Systems for Financial Documents Using Large Language Models (English)
Abstract [sv]
Denna rapport undersöker hur stora språkmodeller kan användas för att automatisera informationsextraktion ur finansiella PDF-dokument. Finansiella dokument är ofta långa och komplexa, vilket gör manuell extrahering tidskrävande och svår att skala. Syftet är att ta fram och utvärdera ett sammanfattningsbaserat system samt jämföra dess prestanda mot ett Retrieval-Augmented Generation-system (RAG) för frågebesvarande. Det utvecklade sammanfattningsbaserade systemet består av fyra steg: textextrahering, segmentering, frågefokuserad och hierarkisk sammanfattning, och till sist frågebesvarande. Parametrarna som undersöks i arbetet är två PDF-läsare, tre segmentstorlekar samt två sammanfattningslängder. Utvärderingen genomfördes med måtten Exact Match och F1-värde. Den valda konfigurationen för det utvecklade systemet uppnådde ett genomsnittligt Exact Match-värde på 0,81 och genomsnittligt F1-värde på 0,85 över tre körningar. Den testade RAG-konfigurationen uppnådde motsvarande värden på 0,76 respektive 0,81. Resultaten indikerar att det utvecklade systemet kan utgöra ett relevant alternativ till retrieval-baserade strategier för frågebesvarande över finansiella dokument.
Abstract [en]
This study investigates how large language models can be used to automate information extraction from financial PDF-documents. Financial documents are often long and complex, which makes manual extraction time-consuming and difficult to scale. The purpose of this study is to develop and evaluate a summarization-based system and compare its performance against a Retrieval-Augmented Generation system for question answering. The developed summarization-based system consists of four stages: text extraction, segmentation, query-focused and hierarchical summarization, and question answering. The parameters investigated in the study includes two PDF-readers, three segment sizes, and two summary lengths. The evaluation was conducted using the metrics Exact Match and F1-score. The selected configuration of the developed system achieved an average Exact Match score of 0,81 and an average F1-score of 0,85 across three runs. The evaluated RAG configuration achieved corresponding scores of 0,76 and 0,81. The results indicate that the developed system can serve as a relevant alternative to retrieval-based strategies for question answering over financial documents.
Place, publisher, year, edition, pages
2026.
Series
TRITA-CBH-GRU ; 2026:138
Keywords [en]
Large Language Models, Retrieval-Augmented Generation, Question-Answering, query-focused summarization, hierarchical summarization, information-extraction, PDF-extraction, prompt engineering, Exact Match, F1-score
Keywords [sv]
Stora språkmodeller, Retrieval-Augmented Generation, frågebesvarande, frågefokuserad sammanfattning, hierarkisk sammanfattning, informationsutvinning, PDF-extrahering, prompt engineering, Exact Match, F1-värde
National Category
Information Systems
Identifiers
URN: urn:nbn:se:kth:diva-382879OAI: oai:DiVA.org:kth-382879DiVA, id: diva2:2065195
External cooperation
Apofeni
Educational program
Bachelor of Science in Engineering - Computer Engineering
Supervisors
Examiners
2026-06-032026-06-032026-06-03Bibliographically approved