Evaluating the Usability of Large Language Models as Tools in Cybersecurity: A Comparison of Censored and Uncensored Models in Penetration Testing and Digital Forensics
2024 (English)Independent thesis Basic level (degree of Bachelor), 10 credits / 15 HE credits
Student thesisAlternative title
Utvärdering av Stora Språkmodellers Användbarhet som Verktyg inom Cybersäkerhet : En jämförelse av Censurerade och Ocensurerade Modeller i Penetrationstestning och Digital Forensik (Swedish)
Abstract [en]
In today’s age, Large Language Models (LLMs) are becoming more prevalent in almost all fields of work. Both good and bad actors in the cybersecurity domain are leveraging artificial intelligence to gain strategic advantages. Existing research does not investigate the usability of LLMs in penetration testing and digital forensics, particularly in the context of censored and uncensored models. This thesis aims to evaluate the usability of a censored and an uncensored LLM and explore the impact censorship has on usability. Two LLMs, ChatGPT-4 and Dolphin Mistral 7B 2.2.1, were selected for evaluation. They were tested across varying difficulty levels in capture-the-flag and digital forensic challenges. Usability assessments were conducted using a Likert scale, alongside an analysis of the proportion of accurate responses to prompts. In the capture-the-flag challenges, the models aided in discovering two out of three flags, demonstrating favorable usability for ChatGPT-4, while Dolphin Mistral fell short of meeting the specified usability threshold. In the digital forensics challenges, the LLMs helped answer a majority of the questions, with ChatGPT-4 outperforming Dolphin Mistral in terms of usability. Our results show that both models could be useful when applied in various contexts. The censorship did not impact the usability, but the dataset, hardware, and knowledge of the user significantly influenced performance. However, more research is needed for a definitive conclusion.
Abstract [sv]
I dagens samhälle blir stora språkmodeller allt mer förekommande inom nästan alla arbetsområden. Både goda och fientliga aktörer inom cybersäkerhetsdomänen utnyttjar artificiell intelligens för att få strategiska fördelar. Befintlig forskning undersöker inte användbarheten av stora språkmodeller i penetrationstester och digital forensik, särskilt inte i kontext av censurerade och ocensurerade modeller. Denna studie syftar till att utvärdera användbarheten av en censurerad och en ocensurerad stor språkmodell och utforska vilken påverkan censur har på användbarheten. Två stora språkmodeller, ChatGPT-4 och Dolphin Mistral 7B 2.2.1, valdes för utvärdering. De testades på olika svårighetsnivåer i utmaningar inom capture-the-flag och digital forensik. Utvärdering av modellernas användbarhet genomfördes med hjälp av en Likert-skala, tillsammans med en analys av andelen korrekta svar. I capture-the-flag-utmaningarna hjälpte modellerna till att hitta två av tre flaggor, där ChatGPT-4 visade god användbarhet medan Dolphin Mistral inte nådde upp till den angivna tröskeln. I dem forensiska utmaningarna hjälpte de stora språkmodellerna till att besvara en majoritet av frågorna, där ChatGPT-4 presterade bättre än Dolphin Mistral vad gäller användbarhet. Våra resultat visar att båda modellerna kan vara användbara när de tillämpas i olika sammanhang. Censuren påverkade inte användbarheten, men datasetet, hårdvaran och användarens kunskap påverkade prestandan betydligt. Det krävs däremot mer forskning för en definitiv slutsats.
Place, publisher, year, edition, pages
2024. , p. 108
Series
TRITA-EECS-EX ; 2024:498
Keywords [en]
Large Language Models, Ethical Hacking, Penetration Testing, Digital Forensics, ChatGPT, Capture the Flag, Cybersecurity
Keywords [sv]
Stora Språkmodeller, Etisk Hackning, Penetrationstestning, Digital Forensik, ChatGPT, Capture the Flag, Cybersäkerhet
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-352308OAI: oai:DiVA.org:kth-352308DiVA, id: diva2:1892788
Supervisors
Examiners
2024-09-272024-08-272024-09-27Bibliographically approved