kth.sePublications
Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Jailbreaking ChatGPT Through Prompt Segmentation
KTH, School of Electrical Engineering and Computer Science (EECS).
2024 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesis
Abstract [en]

Large Language Models (LLMs) have recently driven societal transformations by enabling advanced task automation and content generation. ChatGPT, developed by OpenAI, is one of the most widely used LLMs today. It serves students, professionals, and content creators by enhancing learning, boosting productivity, and assisting in creative pursuits. However, while beneficial, this technology can also be exploited for malicious purposes. Jailbreaking, in the context of LLMs, refers to the process of circumventing developerimposed restrictions to force a given model to generate prohibited content. Despite ongoing efforts by developers to secure their LLMs, achieving full protection against such misuse remains a complex challenge. This thesis introduces a novel jailbreaking method, named prompt segmentation. Prompt segmentation involves processing distinct components of a given prompt in parallel and then synthesizing the responses to produce a cohesive output. This method is implemented using Python and the OpenAI Assistants API and is evaluated against an adversarial benchmark of 520 malicious queries. Results indicate that prompt segmentation may provide a viable method for malicious users seeking to bypass restrictions and obtain prohibited content. When used in combination with prompt encryption, this method demonstrates promising effectiveness, warranting further exploration of the method.

Abstract [sv]

Stora språkmodeller har nyligen drivit fram betydande samhällsförändringar genom automatisering och innehållsgenerering. ChatGPT, utvecklad av OpenAI, är idag en av de mest använda språkmodellerna. ChatGPT används av studenter, yrkesverksamma och entusiaster för att stötta lärande, öka produktivitet och bistå med innehåll till kreativa projekt. Stora språkmodeller kan vara till hjälp inom många områden, men de kan även utnyttjas för illasinnade syften. Jailbreaking avser processen att manipulera system för att kringgå restriktioner som införts av dess utvecklare. Inom området stora språkmodeller syftar detta till att utnyttja en språkmodell för att generera förbjudet innehåll. Trots utvecklarnas ansträngningar att säkra sina språkmodeller kvarstår utmaningen att helt skydda dem mot missbruk. I detta examensarbete presenteras och utvärderas en ny metod inom jailbreaking, kallad promptsegmentering. Promptsegmentering avser processen att parallellt behandla olika aspekter av en given fråga innan de resulterande svaren sammanfogas till ett. Metoden utvärderas med hjälp av Python och OpenAI Assistants API. En automatiserad utvärderingsprocess implementeras, och metoden testas mot en samling av 520 elakartade frågor. Resultaten tyder på att promptsegmentering kan vara ett fungerande alternativ för illasinnade användare som söker förbjudet innehåll. När denna metod dessutom kombineras med kryptering uppnås jämförbara resultat med flera tidigare utforskade jailbreaking-metoder.

Place, publisher, year, edition, pages
2024. , p. 47
Series
TRITA-EECS-EX ; 2024:886
Keywords [en]
Jailbreaking, ChatGPT, OpenAI, Large Language Models, Generative Pre-trained Transformers, Cybersecurity
Keywords [sv]
Jailbreaking, ChatGPT, OpenAI, Språkmodeller, Cybersäkerhet
National Category
Electrical Engineering, Electronic Engineering, Information Engineering
Identifiers
URN: urn:nbn:se:kth:diva-361699OAI: oai:DiVA.org:kth-361699DiVA, id: diva2:1947366
Supervisors
Examiners
Available from: 2025-03-31 Created: 2025-03-25 Last updated: 2025-03-31Bibliographically approved

Open Access in DiVA

fulltext(5271 kB)119 downloads
File information
File name FULLTEXT01.pdfFile size 5271 kBChecksum SHA-512
dde3d30b59d94a6399b3c3a27e485779ecc82ef2c66ff739f710800df4d507a66e23c6a7a6375aa78dc48091ea6bcf4b17c4bff9b4f7cc0350e38e0470e0a0de
Type fulltextMimetype application/pdf

By organisation
School of Electrical Engineering and Computer Science (EECS)
Electrical Engineering, Electronic Engineering, Information Engineering

Search outside of DiVA

GoogleGoogle Scholar
Total: 119 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 508 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf