kth.sePublications
Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Evaluating the Usability of Large Language Models as Tools in Cybersecurity: A Comparison of Censored and Uncensored Models in Penetration Testing and Digital Forensics
KTH, School of Electrical Engineering and Computer Science (EECS).
KTH, School of Electrical Engineering and Computer Science (EECS).
2024 (English)Independent thesis Basic level (degree of Bachelor), 10 credits / 15 HE creditsStudent thesisAlternative title
Utvärdering av Stora Språkmodellers Användbarhet som Verktyg inom Cybersäkerhet : En jämförelse av Censurerade och Ocensurerade Modeller i Penetrationstestning och Digital Forensik (Swedish)
Abstract [en]

In today’s age, Large Language Models (LLMs) are becoming more prevalent in almost all fields of work. Both good and bad actors in the cybersecurity domain are leveraging artificial intelligence to gain strategic advantages. Existing research does not investigate the usability of LLMs in penetration testing and digital forensics, particularly in the context of censored and uncensored models. This thesis aims to evaluate the usability of a censored and an uncensored LLM and explore the impact censorship has on usability. Two LLMs, ChatGPT-4 and Dolphin Mistral 7B 2.2.1, were selected for evaluation. They were tested across varying difficulty levels in capture-the-flag and digital forensic challenges. Usability assessments were conducted using a Likert scale, alongside an analysis of the proportion of accurate responses to prompts. In the capture-the-flag challenges, the models aided in discovering two out of three flags, demonstrating favorable usability for ChatGPT-4, while Dolphin Mistral fell short of meeting the specified usability threshold. In the digital forensics challenges, the LLMs helped answer a majority of the questions, with ChatGPT-4 outperforming Dolphin Mistral in terms of usability. Our results show that both models could be useful when applied in various contexts. The censorship did not impact the usability, but the dataset, hardware, and knowledge of the user significantly influenced performance. However, more research is needed for a definitive conclusion.

Abstract [sv]

I dagens samhälle blir stora språkmodeller allt mer förekommande inom nästan alla arbetsområden. Både goda och fientliga aktörer inom cybersäkerhetsdomänen utnyttjar artificiell intelligens för att få strategiska fördelar. Befintlig forskning undersöker inte användbarheten av stora språkmodeller i penetrationstester och digital forensik, särskilt inte i kontext av censurerade och ocensurerade modeller. Denna studie syftar till att utvärdera användbarheten av en censurerad och en ocensurerad stor språkmodell och utforska vilken påverkan censur har på användbarheten. Två stora språkmodeller, ChatGPT-4 och Dolphin Mistral 7B 2.2.1, valdes för utvärdering. De testades på olika svårighetsnivåer i utmaningar inom capture-the-flag och digital forensik. Utvärdering av modellernas användbarhet genomfördes med hjälp av en Likert-skala, tillsammans med en analys av andelen korrekta svar. I capture-the-flag-utmaningarna hjälpte modellerna till att hitta två av tre flaggor, där ChatGPT-4 visade god användbarhet medan Dolphin Mistral inte nådde upp till den angivna tröskeln. I dem forensiska utmaningarna hjälpte de stora språkmodellerna till att besvara en majoritet av frågorna, där ChatGPT-4 presterade bättre än Dolphin Mistral vad gäller användbarhet. Våra resultat visar att båda modellerna kan vara användbara när de tillämpas i olika sammanhang. Censuren påverkade inte användbarheten, men datasetet, hårdvaran och användarens kunskap påverkade prestandan betydligt. Det krävs däremot mer forskning för en definitiv slutsats.

Place, publisher, year, edition, pages
2024. , p. 108
Series
TRITA-EECS-EX ; 2024:498
Keywords [en]
Large Language Models, Ethical Hacking, Penetration Testing, Digital Forensics, ChatGPT, Capture the Flag, Cybersecurity
Keywords [sv]
Stora Språkmodeller, Etisk Hackning, Penetrationstestning, Digital Forensik, ChatGPT, Capture the Flag, Cybersäkerhet
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-352308OAI: oai:DiVA.org:kth-352308DiVA, id: diva2:1892788
Supervisors
Examiners
Available from: 2024-09-27 Created: 2024-08-27 Last updated: 2024-09-27Bibliographically approved

Open Access in DiVA

fulltext(651 kB)270 downloads
File information
File name FULLTEXT01.pdfFile size 651 kBChecksum SHA-512
5e1535b3fcc127aa1587cf4464155f487e9ddeb312b0daead427e1654f403cb1896f1e177e04daac8e5e5a7366dfd278d9fb900356fe591e8066294ac370c265
Type fulltextMimetype application/pdf

By organisation
School of Electrical Engineering and Computer Science (EECS)
Computer and Information Sciences

Search outside of DiVA

GoogleGoogle Scholar
Total: 273 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 472 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf