Evaluating the Efficacy of Large Language Models in Summarizing Swedish Income Statements
2024 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE credits
Student thesisAlternative title
Utvärdering av effektiviteten hos stora språkmodeller för att summera svenska resultaträkningar (Swedish)
Abstract [en]
This thesis explores the effectiveness of large language models (LLMs) in generating coherent and accurate natural language summaries from Swedish income statements. By employing various prompting strategies, this research investigates integration of a deterministic and explainable preprocessing system: one designed to optimize data relevance for LLM inputs – termed “guided zero-shot prompt”. The study systematically compares three prompting techniques: zero-shot, self-augmentation, and guided zeroshot, assessing their influence on summary accuracy and coherence. These techniques are tested in combination with three different LLMs: GPT-4, Llama 3 8B, and Llama 3 70B. Statistically significant improvements were observed with the guided zeroshot prompting approach, across all tested LLMs. In terms of aligning the generated summaries with human-created references, the guided prompt outperformed the other prompts, achieving a higher F-score for every model. The guided prompting notably reduced the inclusion of irrelevant numerical data and hallucinations, enhancing the factual precision of the summaries. In terms of LLM selection, the Llama 3 8B model performed notably worse than the other models. The results suggest that GPT-4 should be preferred if quality is prioritized over cost. These results underscore the potential for using LLMs to transform complex numerical data into more accessible narrative forms, enhancing various aspects of financial reporting and the possibility of interacting with numerical data using LLMs.
Abstract [sv]
Rapporten utforskar stora språkmodellers (LLM:er) förmåga att, utan specific förträning, generera sammanhängande och precisa sammanfattningar av svenska resultaträkningar representerade som strukturerade dokument bestående av numeriskt data. Genom att använda olika promptningsstrategier undersöks integrationen av ett deterministiskt och förklarbart förbehandlingssystem, som är designat för att optimera relevansen av indata för LLM:en – benämnt “guided zero-shot prompt”. Studien jämför systematiskt tre promptningstekniker: zero-shot, self-augmentation och guided zero-shot, och bedömer deras inverkan på sammanfattningarnas korrekthet och sammanhang. Teknikerna har utvärderats i kombination med tre olika LLM:er: GPT-4, Llama 3 8B och Llama 3 70B. Statistiskt signifikanta förbättringar observerades vid användningen av ”guided zero-shot”-prompten, för samtliga testade modeller. När det gäller att anpassa de genererade sammanfattningarna till sammanfattningar skapade av människor, överträffade “guided zero-shot”-prompten de andra prompterna och uppnådde det högsta F-värdet för samtliga modeller. Dessutom reducerade den märkbart hallucinationer och felaktigheter i texterna och förbättrade därmed den faktiska precisionen i sammanfattningarna. När det gäller LLM-valet presterade Llama 3 8B-modellen märkbart sämre än de andra modellerna, vilket indikerar att större modeller krävs för den här typen av datatill- text uppgifter. GPT-4 bör tillämpas om kvalitet prioriteras över kostnad. Dessa resultat understryker potentialen med att använda LLM:er för att omvandla komplex numerisk data till mer tillgängliga beskrivande former, vilket kan reformera aspekter av finansiell rapportering.
Place, publisher, year, edition, pages
2024. , p. 69
Series
TRITA-EECS-EX ; 2024:687
Keywords [en]
Data-to-text, Natural language processing, Large language models, Finance
Keywords [sv]
Data-till-text, Språkteknologi, Stora språkmodeller, Finans
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-359959OAI: oai:DiVA.org:kth-359959DiVA, id: diva2:1937229
External cooperation
SoftOne AB
Supervisors
Examiners
2025-02-172025-02-122025-02-17Bibliographically approved