Utvärdering av tillförlitligheten hos LLM-genererade insikter i automatiserad moln rapportering: En fallstudie om teknisk noggrannhet och användbarhet för intressenter
2026 (Swedish)Independent thesis Basic level (degree of Bachelor), 10 credits / 15 HE credits
Student thesisAlternative title
Evaluating the Reliability of LLM-Generated Insights in Automated Cloud Reporting : A Case Study on Technical Accuracy and Stakeholder Usability (English)
Abstract [sv]
Molnbaserade driftmiljöer genererar stora mängder teknisk data som behöver kommuniceras till icke-tekniska beslutsfattare på ett begripligt och tillförlitligt sätt. Storaspråkmodeller erbjuder möjligheten att automatisera denna rapportering, men det är oklart hur val av tekniskt upplägg påverkar kvaliteten och tillförlitligheten i degenererade sammanfattningarna.Detta examensarbete undersöker hur fem olika LLM-upplägg påverkar tillförlitlig-heten i AI-genererade molnrapporter, det vill säga automatiskt genererade sammanfattningar av drift-, incident- och resursdata från en molnbaserad miljö. För att möjliggöra jämförelsen utvecklades en begränsad prototyp för automatiserad molnrapportering i Azure, vilken användes som testbädd i utvärderingen. Två baslinjeupplägg utan källdata användes som jämförelsepunkter, medan huvudanalysen fokuserade på tre källförankrade upplägg: Standard RAG, Spårbar RAG och ett valideratupplägg med självgranskning. Uppläggen utvärderades med avseende på teknisk korrekthet, trohet mot underlaget, spårbarhet, konsistens och begriplighet. Arbetet operationaliserar tillförlitlighet som fem mätbara kvalitetsdimensioner och adresserardärmed en identifierad kunskapslucka gällande praktiska utvärderingsmetoder förfaktabaserad AI-rapportering riktad till icke-tekniska mottagare.Resultaten visar att explicita källhänvisningar hade störst betydelse för upplevd tillförlitlighet hos icke-tekniska mottagare, trots att de inte förbättrade den objektivainnehållskvaliteten ytterligare jämfört med källförankring utan hänvisningar. Källhänvisningarna fungerade som en transparenssignal snarare än ett tekniskt verifieringsverktyg. Självgranskning som kontrollsteg bidrog marginellt till konsistens menförbättrade inte kvaliteten i absoluta termer. Även de bästa uppläggen återgav inteall säkerhetskritisk information i underlaget. AI-genererade rapporter bör därför betraktas som beslutsstöd snarare än som fullständiga beskrivningar av hela driftläget.
Abstract [en]
Cloud-based operational environments generate large volumes of technical data that need to be communicated to non-technical decision makers in a comprehensible and reliable manner. Large language models offer the possibility of automating this reporting, but it remains unclear how the choice of technical configuration affects thequality and reliability of the generated summaries.This thesis investigates how five different LLM configurations affect the reliability of AI-generated cloud reports, meaning automatically generated summaries of operational, incident, and resource data from a cloud-based environment. To enable thecomparison, a limited prototype for automated cloud reporting was developed in Azure and used as a testbed in the evaluation. Two baseline configurations withoutsource data were used as reference points, while the main analysis focused on threeretrieval-augmented configurations: Standard RAG, Traceable RAG, and a validated configuration with selfvalidation. The configurations were evaluated with respect to factual accuracy, faithfulness to the source data, traceability, consistency, and comprehensibility. The thesis operationalises trustworthiness as five measurable quality dimensions, thereby addressing an identified gap in practical evaluation methods forfact-based AI reporting directed at non-technical recipients. The results show that explicit source citations had the greatest impact on perceivedtrustworthiness among non-technical recipients, even though they did not furtherimprove objective content quality compared to retrieval-augmented generation without citations. The citations functioned as a transparency signal rather than a technical verification tool. Self-validation as a control step contributed marginally toconsistency but did not improve the measured quality criteria compared to TraceableRAG. Even the best-performing configurations did not reproduce all security critical information from the source data. AI-generated reports should therefore be regarded as decision support rather than complete descriptions of the overall operational state.
Place, publisher, year, edition, pages
2026.
Series
TRITA-CBH-GRU ; 2026:134
Keywords [en]
Large language models, trustworthiness, retrieval-augmented generation, automa- ted reporting, AIOps, cloud reporting, hallucination, grounding, multi-tenant, deci- sion support
Keywords [sv]
Stora språkmodeller, tillförlitlighet, retrieval-augmented generation, automatiserad rapportering, AIOps, molnrapportering, hallucinationer, källförankring, multi-tenant, beslutsstöd
National Category
Artificial Intelligence
Identifiers
URN: urn:nbn:se:kth:diva-382849OAI: oai:DiVA.org:kth-382849DiVA, id: diva2:2065086
Educational program
Bachelor of Science in Engineering - Computer Engineering
Supervisors
Examiners
2026-06-032026-06-032026-06-03Bibliographically approved