Jailbreaking ChatGPT Through Prompt Segmentation
2024 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE credits
Student thesis
Abstract [en]
Large Language Models (LLMs) have recently driven societal transformations by enabling advanced task automation and content generation. ChatGPT, developed by OpenAI, is one of the most widely used LLMs today. It serves students, professionals, and content creators by enhancing learning, boosting productivity, and assisting in creative pursuits. However, while beneficial, this technology can also be exploited for malicious purposes. Jailbreaking, in the context of LLMs, refers to the process of circumventing developerimposed restrictions to force a given model to generate prohibited content. Despite ongoing efforts by developers to secure their LLMs, achieving full protection against such misuse remains a complex challenge. This thesis introduces a novel jailbreaking method, named prompt segmentation. Prompt segmentation involves processing distinct components of a given prompt in parallel and then synthesizing the responses to produce a cohesive output. This method is implemented using Python and the OpenAI Assistants API and is evaluated against an adversarial benchmark of 520 malicious queries. Results indicate that prompt segmentation may provide a viable method for malicious users seeking to bypass restrictions and obtain prohibited content. When used in combination with prompt encryption, this method demonstrates promising effectiveness, warranting further exploration of the method.
Abstract [sv]
Stora språkmodeller har nyligen drivit fram betydande samhällsförändringar genom automatisering och innehållsgenerering. ChatGPT, utvecklad av OpenAI, är idag en av de mest använda språkmodellerna. ChatGPT används av studenter, yrkesverksamma och entusiaster för att stötta lärande, öka produktivitet och bistå med innehåll till kreativa projekt. Stora språkmodeller kan vara till hjälp inom många områden, men de kan även utnyttjas för illasinnade syften. Jailbreaking avser processen att manipulera system för att kringgå restriktioner som införts av dess utvecklare. Inom området stora språkmodeller syftar detta till att utnyttja en språkmodell för att generera förbjudet innehåll. Trots utvecklarnas ansträngningar att säkra sina språkmodeller kvarstår utmaningen att helt skydda dem mot missbruk. I detta examensarbete presenteras och utvärderas en ny metod inom jailbreaking, kallad promptsegmentering. Promptsegmentering avser processen att parallellt behandla olika aspekter av en given fråga innan de resulterande svaren sammanfogas till ett. Metoden utvärderas med hjälp av Python och OpenAI Assistants API. En automatiserad utvärderingsprocess implementeras, och metoden testas mot en samling av 520 elakartade frågor. Resultaten tyder på att promptsegmentering kan vara ett fungerande alternativ för illasinnade användare som söker förbjudet innehåll. När denna metod dessutom kombineras med kryptering uppnås jämförbara resultat med flera tidigare utforskade jailbreaking-metoder.
Place, publisher, year, edition, pages
2024. , p. 47
Series
TRITA-EECS-EX ; 2024:886
Keywords [en]
Jailbreaking, ChatGPT, OpenAI, Large Language Models, Generative Pre-trained Transformers, Cybersecurity
Keywords [sv]
Jailbreaking, ChatGPT, OpenAI, Språkmodeller, Cybersäkerhet
National Category
Electrical Engineering, Electronic Engineering, Information Engineering
Identifiers
URN: urn:nbn:se:kth:diva-361699OAI: oai:DiVA.org:kth-361699DiVA, id: diva2:1947366
Supervisors
Examiners
2025-03-312025-03-252025-03-31Bibliographically approved