kth.sePublications KTH
4243444546474845 of 157
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Utvärdering av tillförlitligheten hos LLM-genererade insikter i automatiserad moln rapportering: En fallstudie om teknisk noggrannhet och användbarhet för intressenter
KTH, School of Engineering Sciences in Chemistry, Biotechnology and Health (CBH), Biomedical Engineering and Health Systems, Health Informatics and Logistics.
KTH, School of Engineering Sciences in Chemistry, Biotechnology and Health (CBH), Biomedical Engineering and Health Systems, Health Informatics and Logistics.
2026 (Swedish)Independent thesis Basic level (degree of Bachelor), 10 credits / 15 HE creditsStudent thesisAlternative title
Evaluating the Reliability of LLM-Generated Insights in Automated Cloud Reporting : A Case Study on Technical Accuracy and Stakeholder Usability (English)
Abstract [sv]

Molnbaserade driftmiljöer genererar stora mängder teknisk data som behöver kommuniceras till icke-tekniska beslutsfattare på ett begripligt och tillförlitligt sätt. Storaspråkmodeller erbjuder möjligheten att automatisera denna rapportering, men det är oklart hur val av tekniskt upplägg påverkar kvaliteten och tillförlitligheten i degenererade sammanfattningarna.Detta examensarbete undersöker hur fem olika LLM-upplägg påverkar tillförlitlig-heten i AI-genererade molnrapporter, det vill säga automatiskt genererade sammanfattningar av drift-, incident- och resursdata från en molnbaserad miljö. För att möjliggöra jämförelsen utvecklades en begränsad prototyp för automatiserad molnrapportering i Azure, vilken användes som testbädd i utvärderingen. Två baslinjeupplägg utan källdata användes som jämförelsepunkter, medan huvudanalysen fokuserade på tre källförankrade upplägg: Standard RAG, Spårbar RAG och ett valideratupplägg med självgranskning. Uppläggen utvärderades med avseende på teknisk korrekthet, trohet mot underlaget, spårbarhet, konsistens och begriplighet. Arbetet operationaliserar tillförlitlighet som fem mätbara kvalitetsdimensioner och adresserardärmed en identifierad kunskapslucka gällande praktiska utvärderingsmetoder förfaktabaserad AI-rapportering riktad till icke-tekniska mottagare.Resultaten visar att explicita källhänvisningar hade störst betydelse för upplevd tillförlitlighet hos icke-tekniska mottagare, trots att de inte förbättrade den objektivainnehållskvaliteten ytterligare jämfört med källförankring utan hänvisningar. Källhänvisningarna fungerade som en transparenssignal snarare än ett tekniskt verifieringsverktyg. Självgranskning som kontrollsteg bidrog marginellt till konsistens menförbättrade inte kvaliteten i absoluta termer. Även de bästa uppläggen återgav inteall säkerhetskritisk information i underlaget. AI-genererade rapporter bör därför betraktas som beslutsstöd snarare än som fullständiga beskrivningar av hela driftläget.

Abstract [en]

Cloud-based operational environments generate large volumes of technical data that need to be communicated to non-technical decision makers in a comprehensible and reliable manner. Large language models offer the possibility of automating this reporting, but it remains unclear how the choice of technical configuration affects thequality and reliability of the generated summaries.This thesis investigates how five different LLM configurations affect the reliability of AI-generated cloud reports, meaning automatically generated summaries of operational, incident, and resource data from a cloud-based environment. To enable thecomparison, a limited prototype for automated cloud reporting was developed in Azure and used as a testbed in the evaluation. Two baseline configurations withoutsource data were used as reference points, while the main analysis focused on threeretrieval-augmented configurations: Standard RAG, Traceable RAG, and a validated configuration with selfvalidation. The configurations were evaluated with respect to factual accuracy, faithfulness to the source data, traceability, consistency, and comprehensibility. The thesis operationalises trustworthiness as five measurable quality dimensions, thereby addressing an identified gap in practical evaluation methods forfact-based AI reporting directed at non-technical recipients. The results show that explicit source citations had the greatest impact on perceivedtrustworthiness among non-technical recipients, even though they did not furtherimprove objective content quality compared to retrieval-augmented generation without citations. The citations functioned as a transparency signal rather than a technical verification tool. Self-validation as a control step contributed marginally toconsistency but did not improve the measured quality criteria compared to TraceableRAG. Even the best-performing configurations did not reproduce all security critical information from the source data. AI-generated reports should therefore be regarded as decision support rather than complete descriptions of the overall operational state.

Place, publisher, year, edition, pages
2026.
Series
TRITA-CBH-GRU ; 2026:134
Keywords [en]
Large language models, trustworthiness, retrieval-augmented generation, automa- ted reporting, AIOps, cloud reporting, hallucination, grounding, multi-tenant, deci- sion support
Keywords [sv]
Stora språkmodeller, tillförlitlighet, retrieval-augmented generation, automatiserad rapportering, AIOps, molnrapportering, hallucinationer, källförankring, multi-tenant, beslutsstöd
National Category
Artificial Intelligence
Identifiers
URN: urn:nbn:se:kth:diva-382849OAI: oai:DiVA.org:kth-382849DiVA, id: diva2:2065086
Educational program
Bachelor of Science in Engineering - Computer Engineering
Supervisors
Examiners
Available from: 2026-06-03 Created: 2026-06-03 Last updated: 2026-06-03Bibliographically approved

Open Access in DiVA

LLM-baserad automatisering av molnrapportering(776 kB)21 downloads
File information
File name FULLTEXT01.pdfFile size 776 kBChecksum SHA-512
97064cf23829575c919f93fbae42c8db3db08baa56f168555a7b72740d8b9d4cd90b9b20305604855c585d6f56deeae67726cf8711479b4116463741a001e8cc
Type fulltextMimetype application/pdf

By organisation
Health Informatics and Logistics
Artificial Intelligence

Search outside of DiVA

GoogleGoogle Scholar
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 145 hits
4243444546474845 of 157
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf