An Information-Theoretic Approach to Bandits and Reinforcement Learning
2025 (English)Doctoral thesis, comprehensive summary (Other academic)
Abstract [en]
In this thesis, we develop and extend information-theoretic methods for analyzing reinforcement learning, focussing particularly on bandit problems. Our aim is to understand how learning algorithms manage the fundamental trade-off between exploration and exploitation, and how information-theoretic quantities such as entropy and mutual information can be used to characterize and bound their performance. Building on the framework of Russo and Van Roy, which relates Bayesian regret of an algorithm to its learning efficiency, measured by the information ratio, we derive new results that broaden the scope of this approach to more complex and structured learning settings.
The first part of the thesis revisits the analysis of linear bandits, a model in which rewards depend linearly on the selected action via an unknown parameter. While existing information-theoretic analyses provide general regret bounds, they all assume finite action sets. We close this gap by introducing refined analyses and show that near-optimal regret bounds can be obtained even for infinite or continuous action spaces.
The second part of the thesis extends the information analysis framework to more complex bandit models. In the contextual bandit setting, we build on the lifted information ratio and extend its application to more general reward classes. Additionally, we provide alternative proofs based on classical information-theoretic tools. This new derivation reveals simplifies the analysis and enables sharper guarantees for structured problems. We then study the Thompson Sampling algorithm for logistic bandits, a widely used model for binary rewards. We derive the first regret bounds that avoid exponential dependence on the logistic slope parameter and are independent of the number of actions, resolving a long standing open question in the field.
The third part of the thesis takes a step beyond bandit models and investigates how information-theoretic principles can be extended to more general reinforcement learning problems. We study the theoretical performance limits and learning guarantees of model-based reinforcement learning, establishing a framework for analyzing its Bayesian regret. In parallel, we derive PAC-Bayesian bounds for offline decision-making, including improved guarantees for offline bandits that are parameter-free and achieve near-optimal rates.
Together, the contributions of this thesis provide a coherent extension of information-theoretic analysis to a wide range of learning settings; from linear to nonlinear, from discrete to continuous, and from bandits to reinforcement learning.
Abstract [sv]
I denna avhandling utvecklar och utvidgar vi informationsteoretiska metoder för att analysera förstärkningsinlärning (eng: reinforcement learning), med särskilt fokus på banditproblem (eng: bandits). Vårt mål är att förstå hur inlärningsalgoritmer hanterar den grundläggande avvägningen mellan utforskning (eng: exploration) och exploatering (eng: exploitation), och hur informationsteoretiska storheter såsom entropi och ömsesidig information (eng: mutual information) kan användas för att karakterisera och begränsa deras prestanda. Med utgångspunkt i ramverket av Russo och Van Roy, som relaterar en algoritms Bayesianska ånger (eng: Bayesian regret) till dess inlärningseffektivitet mätt genom den så kallade informationskvoten (eng: information ratio), härleder vi nya resultat som utvidgar detta angreppssätt till mer komplexa och strukturerade inlärningsproblem.
Den första delen av avhandlingen återbesöker analysen av linjära banditer, en modell där belöningar beror linjärt på den valda handlingen via en okänd parameter. Även om befintliga informationsteoretiska analyser ger generella ångergränser, förutsätter de alltid ett ändligt handlingsutrymme. Vi fyller denna lucka genom att introducera förfinade analyser som visar att nära-optimala ångergränser kan uppnås även för oändliga eller kontinuerliga handlingsutrymmen.
Den andra delen av avhandlingen utvidgar det informationsteoretiska analysramverket till mer komplexa bandit-modeller. I den kontextuella bandit-miljön bygger vi vidare på den så kallade upplyfta informationskvoten (eng: lifted information ratio) och visar hur denna kan tillämpas för ett bredare spektrum av belöningsmodeller. Därtill tillhandahåller vi alternativa bevis baserade på klassiska informationsteoretiska verktyg, vilket förenklar analysen och möjliggör skarpare garantier för strukturerade problem. Vi studerar därefter Thompson Sampling-algoritmen för logistiska banditer, en centralt använd modell för binära belöningar. Här härleder vi de första ångergränserna som undviker det tidigare nödvändiga exponentiella beroendet av den logistiska lutningsparametern och som dessutom är oberoende av antalet handlingar, vilket löser en länge öppen fråga i området.
Den tredje delen av avhandlingen går bortom bandit-modeller och undersöker hur informationsteoretiska principer kan generaliseras till mer allmänna problem inom förstärkningsinlärning. Vi analyserar teoretiska prestandagränser och inlärningsgarantier för modellbaserad förstärkningsinlärning och etablerar ett ramverk för att studera dess Bayesianska ånger. Parallellt härleder vi PAC-Bayesianska gränser för offline-beslutsfattande (eng: offline decision-making), inklusive förbättrade garantier för offline banditer som är parameterfria och uppnår nära-optimala konvergenshastigheter.
Sammantaget presenterar avhandlingen en sammanhängande och bred utvidgning av informationsteoretisk analys till ett stort spektrum av inlärningsmiljöer: från linjära till icke-linjära modeller, från diskreta till kontinuerliga handlingsutrymmen, och från banditer till allmän förstärkningsinlärning.
Place, publisher, year, edition, pages
Stockholm: Kungliga Tekniska högskolan, 2025. , p. xi, 45
Series
TRITA-EECS-AVL ; 2025:108
Keywords [en]
Reinforcement learning, Bandit problems, Information theory, Regret analysis, Thompson Sampling, PAC-Bayes bounds.
National Category
Other Electrical Engineering, Electronic Engineering, Information Engineering
Identifiers
URN: urn:nbn:se:kth:diva-373221ISBN: 978-91-8106-474-2 (print)OAI: oai:DiVA.org:kth-373221DiVA, id: diva2:2015738
Public defence
2025-12-15, https://kth-se.zoom.us/j/61173029059, F3, Flodis, Lindstedtvägen 26,, Stockholm, 13:15 (English)
Opponent
Supervisors
Note
QC 20251124
2025-11-242025-11-212025-11-24Bibliographically approved
List of papers