kth.sePublikationer KTH
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf
Retrieval-Augmented Generation for Vulnerability Classification: Mapping GitHub Issues to CWE
KTH, Skolan för elektroteknik och datavetenskap (EECS).
2025 (Engelska)Självständigt arbete på avancerad nivå (masterexamen), 20 poäng / 30 hpStudentuppsats (Examensarbete)Alternativ titel
Retrieval-Augmented Generation för Sårbarhetsklassificering : Koppling av GitHub Issues till CWE (Svenska)
Abstract [en]

As technology advances, pivotal services and infrastructure become increasingly dependent on various software, as well as network and computer systems. With the apparent benefits of these modern solutions come the looming threat of exploitation, requiring timely and accurate vulnerability analysis and correction. To this end, Cipollone leverages transformer-based models to ”automate the identification of software vulnerabilities through the analysis of GitHub issues”. Though Cipollone’s pipeline was successful in providing accurate classification alongside detailed vulnerability descriptions, it lacked any form of formal vulnerability categorization, which is often present in a proper vulnerability analysis. This thesis aims to extend Cipollone’s pipeline to include automated vulnerability categorization using the widely recognized list of common software and hardware weaknesses, the Common Weakness Enumeration (CWE). There have been various prior attempts at general automation of CWE labeling. However, they all suffer from the abundance of available labels, contrasted with the scarcity of real-world examples demonstrating their use. This leads to insufficient training or fine-tuning data, limiting achievable precision or class coverage in the final labeling. To circumvent this, we leverage the already available, comprehensive CWE documentation using Retrieval-Augmented Generation without relying on training or fine- tuning. The precision and computational efficiency of this approach demonstrate the viability of knowledge retrieval in supporting and automating vulnerability categorization. In addition to completing the loop of Cipollone’s pipeline, this serves to significantly narrow the window of exploitation between vulnerability discovery and correction. Thus, this research provides an efficient, scalable, and powerful framework for ensuring the security of software and computer systems. Finally, the reduced reliance on training or fine-tuning in automated CWE labeling broadens avenues for future work and solutions in the field.

Abstract [sv]

I takt med teknologisk utveckling blir centrala tjänster och infrastruktur alltmer beroende av olika programvaror samt nätverks- och datorsystem. I samband med de uppenbara fördelarna av dessa moderna lösningar följer det överhängande hotet av exploatering vilket kräver snabb och noggrann sårbarhetsanalys och korrigering. För detta ändamål utnyttjar Cipollone transformatorbaserade modeller för att ”automatisera identifieringen av programvarusårbarheter genom analys av GitHub-problem” (min översättning). Medan Cipollones lösning lyckades ge träffsäker klassificering tillsammans med detaljerade sårbarhetsbeskrivningar saknade den formel sårbarhetskategorisering som ofta finns i en ordentlig sårbarhetsanalys. Denna avhandling syftar till att utvidga Cipollones lösning för att inkludera automatiserad sårbarhetskategorisering med användning av den allmänt erkända Common Weakness Enumeration (CWE). Diverse tidigare försök av generell automatisering av CWE-klassificering har genomförts. Dock, har samtliga en mångfald av tillgängliga klasser men lider brist på verkliga exempel av deras användning. Detta leder till otillräcklig tränings- eller finjusteringsdata vilket begränsar den uppnåeliga precisionen eller klasstäckning av den slutliga klassificeringen. För att undvika detta utnyttjar vi den tillgängliga, omfattande CWE-dokumentationen med hjälp av Retrieval-Augmented Generation utan att förlita oss på träning eller finjustering av modellen. Precisionen och beräkningseffektiviteten av våra resultat visar på användbarheten av informationssökning i att stötta och automatisera sårbarhetsklassificering. Utöver att fullständiggöra Cipollones lösning leder detta till att i betydande omfattning minska avståndet mellan upptäckten av sårbarheter och deras korrigering. följaktligen, tillhandahåller ett effektivt, skalbart och kraftfullt ramverk för att säkerställa säkerheten av programvara och datorsystem. Slutligen vidgar det minskade beroendet av träning och finjustering möjligheterna för framtida arbete och lösningar inom automatiserad CWE-klassificering.

Ort, förlag, år, upplaga, sidor
2025. , s. 66
Serie
TRITA-EECS-EX ; 2025:956
Nyckelord [en]
Vulnerability classification, Vulnerability detection, Machine learning, Large language models (LLM), Retrieval-augmented generation (RAG), Information retrieval, GitHub issues, Common weakness enumeration (CWE)
Nyckelord [sv]
Sårbarhetsklassificering, Sårbarhetsdetektering, Maskininlärning, Stora språkmodeller (LLM), Retrieval-augmented generation (RAG), Informationssökning, GitHub Issues, Common Weakness Enumeration (CWE)
Nationell ämneskategori
Datavetenskap (datalogi)
Identifikatorer
URN: urn:nbn:se:kth:diva-377089OAI: oai:DiVA.org:kth-377089DiVA, id: diva2:2040821
Externt samarbete
Red Hat
Ämne / kurs
Datalogi
Utbildningsprogram
Teknologie masterexamen - Datalogi
Handledare
Examinatorer
Tillgänglig från: 2026-03-03 Skapad: 2026-02-23 Senast uppdaterad: 2026-03-03Bibliografiskt granskad

Open Access i DiVA

fulltext(1768 kB)173 nedladdningar
Filinformation
Filnamn FULLTEXT02.pdfFilstorlek 1768 kBChecksumma SHA-512
14b8dbcfb9f93abf2010be4a950c9dbe7ea1a0d89f4fbae7be369ffe045523542298022478a4cbaa79c1d401bca1d758a229f49db854ee27d548a2c63a931c3f
Typ fulltextMimetyp application/pdf

Av organisationen
Skolan för elektroteknik och datavetenskap (EECS)
Datavetenskap (datalogi)

Sök vidare utanför DiVA

GoogleGoogle Scholar
Totalt: 173 nedladdningar
Antalet nedladdningar är summan av nedladdningar för alla fulltexter. Det kan inkludera t.ex tidigare versioner som nu inte längre är tillgängliga.

urn-nbn

Altmetricpoäng

urn-nbn
Totalt: 2985 träffar
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf