kth.sePublications
Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Self-Play Reinforcement Learning for Finding Intrusion Prevention Strategies
KTH, School of Engineering Sciences (SCI), Mathematics (Dept.), Mathematical Statistics.
2022 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesisAlternative title
Självspelsförstärkningsinlärning för att hitta intrångsförebyggande strategier (Swedish)
Abstract [en]

This Master thesis studies automated intrusion prevention using self-play reinforcement learning. We extend a decision-theoretic model of the intrusion prevention use case based on optimal stopping theory proposed in previous work to a game-theoretic setting. We model the use case of a zero-sum onesided partially observed stochastic game where the defender's stop actions determine the times to take defensive actions and the attacker's stop actions determine when to attack. To find optimal defender strategies, we use multi-agent reinforcement learning. In a novel approach, we extend the Neural Fictitious Self-Play algorithm to partially observed stochastic games. With this approach, we narrow the gap between the theoretical framework of partially observed stochastic games and the framework of model-free reinforcement learning. We show that the learned strategies converge near a Nash equilibrium. Inspection of the converged strategies shows that they imitate human strategies but are heavily dependent on hyperparameters and the reward function.

Abstract [sv]

Detta examensarbete handlar om att automatisera intrångsförebyggande strategier genom att använda självspelsförstärkningsinlärning. Vi bygger vidare på en beslutteoretisk modell av det intrångsförebyggande användningsfallet baserad på optimal stoppteori föreslagit i tidigare arbeten, till en spelteoretisk situation. Närmare bestämt så väljer vi att modellera användningsfallet som ett stokastiskt nollsummespel med ensidig partiell observabilitet, där försvararens stoppaktioner motsvarar tidpunkterna för att ta försvarande aktioner och anfallarens stoppaktioner motsvarar tiden för att starta anfallet. För att hitta optimala försvarsstrategier så använder vi oss av multi-agent förstärkningsinlärning. Med ett nytt tillvägagångssätt använder vi algoritmen Neural Fictitious Self Play för partiellt observerbara spel. Med detta tillvägagångssätt så minskar vi gapet mellan det teoretiska ramverket för partiellt observerbara stokastiska spel och modellfri förstärkningsinlärning. Vi visar att de inlärda strategierna konvergerar mot en Nashjämvikt. Närmre inspektion av de konvergerade strategierna visar att dem imiterar mänskligt beteende, men är mycket beroende av hyperparametrar och belöningsfunktionen.

Place, publisher, year, edition, pages
2022. , p. 87
Series
TRITA-SCI-GRU ; 2022:320
Keywords [en]
Network security, automation, reinforcement learning, Markov Security Games, Neural Fictitious Self Play
Keywords [sv]
Nätverkssäkerhet, automatisering, förstärkningsinlärning, Markovianska säkerhetsspel, Neural Fictitious Self Play
National Category
Computational Mathematics
Identifiers
URN: urn:nbn:se:kth:diva-323842OAI: oai:DiVA.org:kth-323842DiVA, id: diva2:1736915
Subject / course
Mathematics
Educational program
Master of Science - Applied and Computational Mathematics
Supervisors
Examiners
Available from: 2023-02-22 Created: 2023-02-15 Last updated: 2023-02-22Bibliographically approved

Open Access in DiVA

Self-Play Reinforcement Learning for Finding Intrustion Prevention Strategies(1460 kB)305 downloads
File information
File name FULLTEXT01.pdfFile size 1460 kBChecksum SHA-512
e8e73bf98e5717fba23e69c8703f279393e7791b8e23152cd0ae6d9c9f8d7c31af9c2e9d9cc8178cb18515939f29539ffb6166aace54ca701ac95ee22cd013d8
Type fulltextMimetype application/pdf

By organisation
Mathematical Statistics
Computational Mathematics

Search outside of DiVA

GoogleGoogle Scholar
Total: 305 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 500 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf