Counterfactual Regret Minimization in Anti-Submarine Warfare
2025 (English)Independent thesis Basic level (degree of Bachelor), 10 credits / 15 HE credits
Student thesis
Abstract [en]
Anti-Submarine Warfare (ASW) presents complex tactical decision challenges involving stealth and uncertainty. This project explores the application of Counterfactual Regret Minimization (CFR), a class of algorithms successful in large imperfect-information games, to ASW scenarios. We model the interaction between a submarine and an ASW force as a zero-sum, sequential game on discrete graphs with imperfect information, incorporating movement constraints, costs, and probabilistic detection. Using the OpenSpiel framework, we evaluate the performance of three CFR variants: vanilla CFR, Monte Carlo CFR (MCCFR), and Deep CFR, by comparing their convergence speed, measured in wall-clock time, to a target exploitability level. Experiments conducted on graphs of varying sizes showed that MCCFR converged the fastest on all graph sizes, while vanilla CFR was slightly slower; both significantly outperformed Deep CFR. Deep CFR, despite its theoretical scalability, exhibited significantly slower convergence, which may be attributed to computational overhead and hyperparameter sensitivity within the tested game's complexity range. These findings might suggest that for moderately sized strategic simulations like the ASW game modeled here, simpler CFR methods can be more computationally efficient than deep learning approaches.
Abstract [sv]
Ubåtsjakt (ASW) presenterar komplexa taktiska beslutsutmaningar som involverar smygande och osäkerhet. Detta projekt utforskar tillämpningen av Counterfactual Regret Minimization (CFR), en klass av algoritmer framgångsrika i stora spel med ofullständing information, på ASW-scenarier. Vi modellerar interaktionen mellan en ubåt och en ASW-styrka som ett sekventiellt, nollsummespel på diskreta grafer med ofullständig information, och inkluderar rörelsebegränsningar, kostnader och probabilistisk upptäckt. Med hjälp av OpenSpiel-ramverket utvärderar vi prestandan för tre CFR-varianter: vanilla CFR, Monte Carlo CFR (MCCFR) och Deep CFR, genom att jämföra deras konvergenshastighet, mätt i faktisk klocktid, till en målnivå för exploaterbarhet (exploitability). Experiment utförda på grafer av varierande storlek visade att MCCFR konvergerade snabbast på samtliga grafer, medan vanilla CFR var något långsammare; båda presterade signifikant bättre än Deep CFR. Deep CFR, trots sin teoretiska skalbarhet, uppvisade betydligt långsammare konvergens eventuellt vilket möjligtvis kan bero på högre beräkningsmässig kostnad och hyperparameterkänslighet inom det testade spelets komplexitetsintervall. Dessa resultat tyder möjligen på att för strategiska simuleringar av måttlig storlek, som det ASW-spel som modellerats här, kan enklare CFR-metoder vara mer beräkningseffektiva än djupinlärningsmetoder.
Place, publisher, year, edition, pages
2025. , p. 567-576
Series
TRITA-EECS-EX ; 2025:157
Keywords [en]
Counterfactual Regret Minimization, Monte Carlo Counterfactual Regret Minimization, Deep Counterfactual Regret Minimization, Anti-Submarine Warfare Tactics, OpenSpiel
National Category
Electrical Engineering, Electronic Engineering, Information Engineering
Identifiers
URN: urn:nbn:se:kth:diva-376178OAI: oai:DiVA.org:kth-376178DiVA, id: diva2:2034569
Supervisors
Examiners
Projects
Kandidatexamensarbete i Elektroteknik 2025, EECS, KTH2026-02-022026-02-02