kth.sePublications
Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Detecting spoofing in financial markets: An unsupervised anomaly detection approach: A case study at Nasdaq
KTH, School of Electrical Engineering and Computer Science (EECS).
2024 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesisAlternative title
Detektering av spoofing på finansmarknader med oövervakad maskininlärning : En fallstudie på Nasdaq (Swedish)
Abstract [en]

Efficient methods for detecting illegal trading are essential for banks and stock exchanges to ensure market integrity and protect traders' interests. Traditionally, rule-based algorithms have been used to identify illegal trading activities. However, the potential of machine learning for fraud detection has increasingly been recognized in recent years, particularly for unsupervised anomaly detection, as labeled data is often rare in this field. This thesis evaluates the performance of such methods in detecting a type of illegal trading called spoofing. Spoofing involves placing large orders in the market with no intention of execution, aiming to influence financial market prices. Based on recent advancements, a hybrid model combining an autoencoder with a one-class classifier was developed and compared to common unsupervised anomaly detection methods, including the isolation forest, one-class support vector machine, and a standalone autoencoder. Additionally, feature importance was evaluated using two methods to determine which characteristics of order book data most significantly contribute to spoofing detection. Given this field's scarcity of labeled data, a synthetic dataset was generated for validation and performance evaluation. The results revealed that while the hybrid models underperformed, the isolation forest, particularly when trained on the most important features, achieved the highest performance, with an AUC ROC score of 0.82 and an AUC PR score of 0.30 on the final dataset. Despite these achievements, there is room for improvement, especially in reducing the false positive rate to make these models useful within trading surveillance. The synthetic dataset proved highly effective in representing real spoofing scenarios, and the feature importance methods offered valuable insights into the detection of spoofing.

Abstract [sv]

Effektiva metoder för att upptäcka illegal handel är avgörande för banker och börser för att säkerställa marknadens integritet och skydda handlarnas intressen. Traditionellt har regelbaserade algoritmer använts för att identifiera olaglig handelsverksamhet. Potentialen med maskininlärning för att upptäcka bedrägerier har dock blivit alltmer erkänd under de senaste åren, särskilt för oövervakad anomalidetektion, eftersom märkt data ofta är sällsynt inom detta område. Denna avhandling utvärderar prestandan hos sådana metoder för att upptäcka handelsbaserad marknadsmanipulation, med fokus på spoofing. Spoofing innebär att det läggs stora ordrar på marknaden utan avsikt att de ska gå till avslut, i syfte att påverka priserna. Baserat på de senaste framstegen utvecklas en hybridmodell som kombinerar en autoencoder med en one-class-klassificerare och jämförs med vanliga oövervakade metoder för upptäckt av anomalier, inklusive isolation forest, one-class support vector machine och en fristående autoencoder. Vidare utvärderades vilka egenskaper hos orderboksdata som mest signifikant bidrar till spoofingdetektering genom att använda två olika metoder för feature-importance. Med tanke på detta fälts brist på märkt data genererades ett syntetiskt dataset för validering och prestandautvärdering. Resultaten visade att medan hybridmodellerna underpresterade, uppnådde isolation forest, särskilt när den tränades på de viktigaste features, den högsta prestandan med ett AUC ROC på 0.82 och ett AUC PR på 0.30 på det slutgiltiga datasetet. Det finns dock utrymme för förbättringar, särskilt när det gäller att minska antalet falska positiva för att göra dessa modeller användbara inom handelsövervakning. Det syntetiska datasetet visade sig vara mycket effektiv för att representera verkliga spoofingscenarier, och metoderna för feature-importance gav värdefulla insikter om detektering av spoofing.

Place, publisher, year, edition, pages
Stockholm: KTH Royal Institute of Technology , 2024. , p. 76
Series
TRITA-EECS-EX ; 2024:285
Keywords [en]
Unsupervised learning, anomaly detection, trade-based market manipulation, spoofing, layering
Keywords [sv]
Oövervakad maskininlärning, anomalidetektion, tradebaserad marknadsmanipulation, spoofing, layering
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-350830OAI: oai:DiVA.org:kth-350830DiVA, id: diva2:1885077
External cooperation
Nasdaq
Subject / course
Computer Science
Educational program
Master of Science in Engineering - Computer Science and Technology
Supervisors
Examiners
Available from: 2024-08-14 Created: 2024-07-21 Last updated: 2024-08-14Bibliographically approved

Open Access in DiVA

fulltext(1835 kB)696 downloads
File information
File name FULLTEXT01.pdfFile size 1835 kBChecksum SHA-512
4940f1ae2fef377151585870de28030dc3d950a4ed3718b30ee99246e6f0b5f4fd36df714a6127bc484e3b7bcea5eddeac35c45372ae3f9955892fd9afc7860f
Type fulltextMimetype application/pdf

Search in DiVA

By author/editor
Rieschel, Emilia
By organisation
School of Electrical Engineering and Computer Science (EECS)
Computer and Information Sciences

Search outside of DiVA

GoogleGoogle Scholar
Total: 696 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 690 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf