kth.sePublikationer KTH
Ändra sökning
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf
Reinforcement learning for optimal execution in high resolution Markovian limit order book models
KTH, Skolan för teknikvetenskap (SCI), Matematik (Inst.), Matematisk statistik.ORCID-id: 0000-0002-0067-4908
KTH, Skolan för teknikvetenskap (SCI), Matematik (Inst.), Matematisk statistik.ORCID-id: 0000-0001-9210-121X
KTH, Skolan för elektroteknik och datavetenskap (EECS), Intelligenta system, Reglerteknik.ORCID-id: 0000-0002-4679-4673
Visa övriga samt affilieringar
(Engelska)Manuskript (preprint) (Övrigt vetenskapligt)
Nationell ämneskategori
Beräkningsmatematik
Identifikatorer
URN: urn:nbn:se:kth:diva-295423OAI: oai:DiVA.org:kth-295423DiVA, id: diva2:1556125
Anmärkning

QC 20210531

Tillgänglig från: 2021-05-20 Skapad: 2021-05-20 Senast uppdaterad: 2022-06-25Bibliografiskt granskad
Ingår i avhandling
1. Generative models of limit order books
Öppna denna publikation i ny flik eller fönster >>Generative models of limit order books
2021 (Engelska)Licentiatavhandling, sammanläggning (Övrigt vetenskapligt)
Abstract [en]

In this thesis generative models in machine learning are developed with the overall aim to improve methods for algorithmic trading on high-frequency electronic exchanges based on limit order books. The thesis consists of two papers.

In the first paper a new generative model for the dynamic evolution of a limit order book, based on recurrent neural networks, is developed. The model captures the full dynamics of the limit order book by decomposing the probability of each transition of the limit order book into a product of conditional probabilities of order type, price level, order size, and time delay. Each such conditional probability is modeled by a recurrent neural network. In addition several evaluation metrics for generative models related to order execution are introduced. The generative model is successfully trained to fit both synthetic data generated by a Markov model and real data from the Nasdaq Stockholm exchange.

The second paper explores reinforcement learning methods to find optimal policies for trading execution in Markovian models. A number of different approaches are implemented and compared, including a baseline time-weighted average price (TWAP) strategy, tabular Q-learning, and deep Q-learning based on predefined features as well as with the entire limit order book as input. The results indicate that it is preferable to use deep Q-learning with the entire limit order book as input to design efficient execution policies. In order to improve the understanding of the decisions taken by the agent, the learned action-value function for the deep Q-learning with predefined features is visualized as a function of selected features.  

Abstract [sv]

I denna avhandling utvecklas generativa modeller i maskininlärning med syfte att förbättra metoder för algoritmisk handel på högfrekventa elektroniska marknader baserat på orderböcker. Avhandlingen består av två artiklar.

Den första artikeln utvecklar en generativ modell för den dynamiska utvecklingen av en orderbok baserad på rekurrenta neurala nätverk. Modellen fångar orderbokens fullständiga dynamik genom att bryta ned sannolikheten för varje förändring av orderboken i en produkt av betingade sannolikheter för ordertyp, prisnivå, orderstorlek och tidsfördröjning. Var och en av de betingade sannolikheterna modelleras med ett rekurrent neuralt nätverk.  Dessutom introduceras flera evalueringsmetoder för generativa modeller relaterade till orderexekvering. Den generativa modellen tränas framgångsrikt både för syntetisk data, genererad av en Markovmodell, och riktig data från Nasdaq Stockholm.

Den andra artikeln utforskar förstärkningsinlärning för att hitta optimala strategier för orderexekvering i Markovska modeller. Flera olika metoder implementeras och jämförs, inklusive en referensstrategi med tidsviktat medelpris, tabulär Q-inlärning och djup Q-inlärning baserade både på fördefinierade statistikor och med hela orderboken som indata. Resultaten indikerar att det är fördelaktigt att använda hela orderboken som indata för djup Q-inlärning. För att förbättra förståelsen för besluten som agenten tar, visualiseras Q-funktionen för djup Q-inlärning som funktion av de fördefinierade statistikorna. 

Ort, förlag, år, upplaga, sidor
KTH Royal Institute of Technology, 2021. s. 109
Serie
TRITA-SCI-FOU ; 2021;25
Nationell ämneskategori
Sannolikhetsteori och statistik
Forskningsämne
Matematik
Identifikatorer
urn:nbn:se:kth:diva-295424 (URN)978-91-7873-921-9 (ISBN)
Presentation
2021-06-10, Via Zoom: https://kth-se.zoom.us/webinar/register/WN_ELZ61ZbqSNKq_c7ShhtAqA, 13:00 (Engelska)
Opponent
Handledare
Tillgänglig från: 2021-05-21 Skapad: 2021-05-20 Senast uppdaterad: 2022-09-19Bibliografiskt granskad

Open Access i DiVA

Fulltext saknas i DiVA

Person

Hultin, HannaHult, HenrikProutiere, AlexandreTarighati, Alla

Sök vidare i DiVA

Av författaren/redaktören
Hultin, HannaHult, HenrikProutiere, AlexandreTarighati, Alla
Av organisationen
Matematisk statistikReglerteknik
Beräkningsmatematik

Sök vidare utanför DiVA

GoogleGoogle Scholar

urn-nbn

Altmetricpoäng

urn-nbn
Totalt: 1449 träffar
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf