kth.sePublications KTH
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Informationsextrahering från långa PDF-dokument för effektivt frågebesvarande: En jämförande studie av system för informationsutvinning och frågebesvarande över finansiella dokument med stora språkmodeller
KTH, School of Engineering Sciences in Chemistry, Biotechnology and Health (CBH), Biomedical Engineering and Health Systems, Health Informatics and Logistics.
KTH, School of Engineering Sciences in Chemistry, Biotechnology and Health (CBH), Biomedical Engineering and Health Systems, Health Informatics and Logistics.
2026 (Swedish)Independent thesis Basic level (degree of Bachelor), 10 credits / 15 HE creditsStudent thesisAlternative title
Information Extraction from Long PDF Documents for Efficient Question Answering : A Comparative Study of Information Extraction and Question Answering Systems for Financial Documents Using Large Language Models (English)
Abstract [sv]

Denna rapport undersöker hur stora språkmodeller kan användas för att automatisera informationsextraktion ur finansiella PDF-dokument. Finansiella dokument är ofta långa och komplexa, vilket gör manuell extrahering tidskrävande och svår att skala. Syftet är att ta fram och utvärdera ett sammanfattningsbaserat system samt jämföra dess prestanda mot ett Retrieval-Augmented Generation-system (RAG) för frågebesvarande. Det utvecklade sammanfattningsbaserade systemet består av fyra steg: textextrahering, segmentering, frågefokuserad och hierarkisk sammanfattning, och till sist frågebesvarande. Parametrarna som undersöks i arbetet är två PDF-läsare, tre segmentstorlekar samt två sammanfattningslängder. Utvärderingen genomfördes med måtten Exact Match och F1-värde. Den valda konfigurationen för det utvecklade systemet uppnådde ett genomsnittligt Exact Match-värde på 0,81 och genomsnittligt F1-värde på 0,85 över tre körningar. Den testade RAG-konfigurationen uppnådde motsvarande värden på 0,76 respektive 0,81. Resultaten indikerar att det utvecklade systemet kan utgöra ett relevant alternativ till retrieval-baserade strategier för frågebesvarande över finansiella dokument.

Abstract [en]

This study investigates how large language models can be used to automate information extraction from financial PDF-documents. Financial documents are often long and complex, which makes manual extraction time-consuming and difficult to scale. The purpose of this study is to develop and evaluate a summarization-based system and compare its performance against a Retrieval-Augmented Generation system for question answering. The developed summarization-based system consists of four stages: text extraction, segmentation, query-focused and hierarchical summarization, and question answering. The parameters investigated in the study includes two PDF-readers, three segment sizes, and two summary lengths. The evaluation was conducted using the metrics Exact Match and F1-score. The selected configuration of the developed system achieved an average Exact Match score of 0,81 and an average F1-score of 0,85 across three runs. The evaluated RAG configuration achieved corresponding scores of 0,76 and 0,81. The results indicate that the developed system can serve as a relevant alternative to retrieval-based strategies for question answering over financial documents. 

Place, publisher, year, edition, pages
2026.
Series
TRITA-CBH-GRU ; 2026:138
Keywords [en]
Large Language Models, Retrieval-Augmented Generation, Question-Answering, query-focused summarization, hierarchical summarization, information-extraction, PDF-extraction, prompt engineering, Exact Match, F1-score
Keywords [sv]
Stora språkmodeller, Retrieval-Augmented Generation, frågebesvarande, frågefokuserad sammanfattning, hierarkisk sammanfattning, informationsutvinning, PDF-extrahering, prompt engineering, Exact Match, F1-värde
National Category
Information Systems
Identifiers
URN: urn:nbn:se:kth:diva-382879OAI: oai:DiVA.org:kth-382879DiVA, id: diva2:2065195
External cooperation
Apofeni
Educational program
Bachelor of Science in Engineering - Computer Engineering
Supervisors
Examiners
Available from: 2026-06-03 Created: 2026-06-03 Last updated: 2026-06-03Bibliographically approved

Open Access in DiVA

Examensarbete_Marcus_Magnus(1326 kB)23 downloads
File information
File name FULLTEXT01.pdfFile size 1326 kBChecksum SHA-512
3923080b0ff7d3e620e148a8d4cf27b03d26e982dc762a221ee84a8a0adf156759729be75120fbb84304927a2f9261572fb0b94e1c8dd4349a36248ea3d235b0
Type fulltextMimetype application/pdf

By organisation
Health Informatics and Logistics
Information Systems

Search outside of DiVA

GoogleGoogle Scholar
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 249 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf