RefereraExporteraLink to record
Permanent link

Direct link
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annet format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annet språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf
Retrieval-Augmented Generation for Vulnerability Classification: Mapping GitHub Issues to CWE
KTH, Skolan för elektroteknik och datavetenskap (EECS).
2025 (engelsk)Independent thesis Advanced level (degree of Master (Two Years)), 20 poäng / 30 hpOppgaveAlternativ tittel
Retrieval-Augmented Generation för Sårbarhetsklassificering : Koppling av GitHub Issues till CWE (svensk)
Abstract [en]

As technology advances, pivotal services and infrastructure become increasingly dependent on various software, as well as network and computer systems. With the apparent benefits of these modern solutions come the looming threat of exploitation, requiring timely and accurate vulnerability analysis and correction. To this end, Cipollone leverages transformer-based models to ”automate the identification of software vulnerabilities through the analysis of GitHub issues”. Though Cipollone’s pipeline was successful in providing accurate classification alongside detailed vulnerability descriptions, it lacked any form of formal vulnerability categorization, which is often present in a proper vulnerability analysis. This thesis aims to extend Cipollone’s pipeline to include automated vulnerability categorization using the widely recognized list of common software and hardware weaknesses, the Common Weakness Enumeration (CWE). There have been various prior attempts at general automation of CWE labeling. However, they all suffer from the abundance of available labels, contrasted with the scarcity of real-world examples demonstrating their use. This leads to insufficient training or fine-tuning data, limiting achievable precision or class coverage in the final labeling. To circumvent this, we leverage the already available, comprehensive CWE documentation using Retrieval-Augmented Generation without relying on training or fine- tuning. The precision and computational efficiency of this approach demonstrate the viability of knowledge retrieval in supporting and automating vulnerability categorization. In addition to completing the loop of Cipollone’s pipeline, this serves to significantly narrow the window of exploitation between vulnerability discovery and correction. Thus, this research provides an efficient, scalable, and powerful framework for ensuring the security of software and computer systems. Finally, the reduced reliance on training or fine-tuning in automated CWE labeling broadens avenues for future work and solutions in the field.

Abstract [sv]

I takt med teknologisk utveckling blir centrala tjänster och infrastruktur alltmer beroende av olika programvaror samt nätverks- och datorsystem. I samband med de uppenbara fördelarna av dessa moderna lösningar följer det överhängande hotet av exploatering vilket kräver snabb och noggrann sårbarhetsanalys och korrigering. För detta ändamål utnyttjar Cipollone transformatorbaserade modeller för att ”automatisera identifieringen av programvarusårbarheter genom analys av GitHub-problem” (min översättning). Medan Cipollones lösning lyckades ge träffsäker klassificering tillsammans med detaljerade sårbarhetsbeskrivningar saknade den formel sårbarhetskategorisering som ofta finns i en ordentlig sårbarhetsanalys. Denna avhandling syftar till att utvidga Cipollones lösning för att inkludera automatiserad sårbarhetskategorisering med användning av den allmänt erkända Common Weakness Enumeration (CWE). Diverse tidigare försök av generell automatisering av CWE-klassificering har genomförts. Dock, har samtliga en mångfald av tillgängliga klasser men lider brist på verkliga exempel av deras användning. Detta leder till otillräcklig tränings- eller finjusteringsdata vilket begränsar den uppnåeliga precisionen eller klasstäckning av den slutliga klassificeringen. För att undvika detta utnyttjar vi den tillgängliga, omfattande CWE-dokumentationen med hjälp av Retrieval-Augmented Generation utan att förlita oss på träning eller finjustering av modellen. Precisionen och beräkningseffektiviteten av våra resultat visar på användbarheten av informationssökning i att stötta och automatisera sårbarhetsklassificering. Utöver att fullständiggöra Cipollones lösning leder detta till att i betydande omfattning minska avståndet mellan upptäckten av sårbarheter och deras korrigering. följaktligen, tillhandahåller ett effektivt, skalbart och kraftfullt ramverk för att säkerställa säkerheten av programvara och datorsystem. Slutligen vidgar det minskade beroendet av träning och finjustering möjligheterna för framtida arbete och lösningar inom automatiserad CWE-klassificering.

sted, utgiver, år, opplag, sider
2025. , s. 66
Serie
TRITA-EECS-EX ; 2025:956
Emneord [en]
Vulnerability classification, Vulnerability detection, Machine learning, Large language models (LLM), Retrieval-augmented generation (RAG), Information retrieval, GitHub issues, Common weakness enumeration (CWE)
Emneord [sv]
Sårbarhetsklassificering, Sårbarhetsdetektering, Maskininlärning, Stora språkmodeller (LLM), Retrieval-augmented generation (RAG), Informationssökning, GitHub Issues, Common Weakness Enumeration (CWE)
HSV kategori
Identifikatorer
URN: urn:nbn:se:kth:diva-377089OAI: oai:DiVA.org:kth-377089DiVA, id: diva2:2040821
Eksternt samarbeid
Red Hat
Fag / kurs
Computer Science
Utdanningsprogram
Master of Science - Computer Science
Veileder
Examiner
Tilgjengelig fra: 2026-03-03 Laget: 2026-02-23 Sist oppdatert: 2026-03-03bibliografisk kontrollert

Open Access i DiVA

fulltext(1768 kB)174 nedlastinger
Filinformasjon
Fil FULLTEXT02.pdfFilstørrelse 1768 kBChecksum SHA-512
14b8dbcfb9f93abf2010be4a950c9dbe7ea1a0d89f4fbae7be369ffe045523542298022478a4cbaa79c1d401bca1d758a229f49db854ee27d548a2c63a931c3f
Type fulltextMimetype application/pdf

Av organisasjonen

Søk utenfor DiVA

GoogleGoogle Scholar
Totalt: 174 nedlastinger
Antall nedlastinger er summen av alle nedlastinger av alle fulltekster. Det kan for eksempel være tidligere versjoner som er ikke lenger tilgjengelige

urn-nbn

Altmetric

urn-nbn
Totalt: 3060 treff
RefereraExporteraLink to record
Permanent link

Direct link
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annet format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annet språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf