kth.sePublications KTH
Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Towards Unsupervised, Analysable and Scalable Node Embedding Models for Transaction Networks
KTH, School of Electrical Engineering and Computer Science (EECS), Intelligent systems, Robotics, Perception and Learning, RPL.ORCID iD: 0000-0002-8044-4773
2025 (English)Doctoral thesis, monograph (Other academic)
Abstract [en]

The ability to efficiently learn embeddings—low-dimensional vector representations of complex data—has been central to recent advances in machine learning. Network data models, which represent entities (nodes) and their relationships (edges), provide a powerful framework for studying diverse systems, from social interactions and infrastructure to molecular biology. Both research and practical applications have benefited greatly from progress in embedding learning, with node embeddings in particular enabling downstream tasks such as node classification, clustering, anomaly detection, graph alignment, and link prediction.

However, not all network types have seen equal progress. In particular, embedding models for transaction networks—formed by digital payments, transfers, and exchanges—remain underdeveloped, despite their significant potential for applications such as financial crime detection. Several methodological challenges persist in learning node embeddings for transaction networks, as key modalities must be captured while also meeting essential model desiderata. This thesis considers three such desiderata: models should be unsupervised, to address the lack of labelled data; analysable, to ensure interpretability in unsupervised settings; and scalable, to handle the size and complexity of real-world transaction networks.

Guided by these goals, the thesis introduces node embedding models designed to capture three essential transaction network modalities: edge flow, edge directionality, and multi-scale structure. In doing so, it provides both methodological advances and analytical insights. Four key findings are that: (i) it is possible to learn node embeddings that represent transaction flow, something not previously demonstrated; (ii) nodes that only receive transactions (so-called "sinks") degrade embedding quality, but this can be mitigated by combining directed and undirected propagation; (iii) standard message-passing methods can lead to rank deficiency, harming embedding quality, which can be resolved through a new technique called message aggregation; and (iv) embeddings can be made interpretable, with each feature corresponding to a meaningful aspect of the network.

A persistent practical challenge in transaction network research—and a major reason for its limited progress—is the scarcity of accessible datasets, owing to the security and privacy concerns surrounding financial data. This thesis circumvents this issue by focusing on the underlying methodological challenges of node embedding modelling for transaction networks. Extensive empirical evaluations are conducted on both proxy datasets, comprising communication and social networks that share the same key modalities as real-world banking data, and on publicly available cryptocurrency and simulated transaction network datasets, which enable broader validation of the proposed models.

Abstract [sv]

Förmågan att effektivt lära sig inbäddningar, det vill säga lågdimensionella vektorrepräsentationer av komplex data, har varit central för de senaste framstegen inom maskininlärning. Nätverksbaserade data modeller, som representerar entiteter (noder) och deras relationer (kanter), utgör ett kraftfullt verktyg för att studera olika typer av system, från sociala interaktioner och infrastruktur till molekylärbiologi. Både forskning och praktiska tillämpningar av dessa nätverk har haft stor nytta av framstegen inom inbäddningsinlärning, där särskilt nodinbäddningar har möjliggjort effektiv tillämpning av nodklassificering, nodklustring, avvikelsedetektering, graf-matchning och länkprediktion.

Dock har inte alla typer av nätverk gjort lika stora framsteg. I synnerhet är inbäddningsmodeller för transaktionsnätverk – som bildas genom digitala betalningar, överföringar och valutaväxlingar – fortfarande underutvecklade, trots deras höga potential i tillämpningar som exempelvis finansiell brottsbekämpning. Därför återstår flera metodologiska utmaningar vid inlärning av nodinbäddningar för transaktionsnätverk, eftersom centrala modaliteter måste fångas samtidigt som viktiga modellkrav uppfylls. Denna avhandling beaktar tre sådana krav: modeller måste vara oövervakade, på grund av bristen på uppmärkta datasets; analyserbara, för att säkerställa tolkbarhet då exakt kvantitativ utvärdering är svårtillgänglig; samt skalbara, för att kunna hantera den storlek och komplexitet som kännetecknar verkliga transaktionsnätverk.

Med dessa mål som vägledning introducerar avhandlingen nodinbäddningsmodeller utformade för att fånga tre centrala modaliteter i transaktionsnätverk: flöden mellan noder, kantsriktning och flerskaliga strukturer. Därigenom bidrar den med både metodologiska framsteg och analytiska insikter. Fyra huvudsakliga resultat är att:(i) det är möjligt att lära nodinbäddningar som representerar transaktionsflöden, något som tidigare inte har visats;(ii) noder som enbart tar emot transaktioner (så kallade ”sänkor”) försämrar inbäddningskvaliteten, men detta kan motverkas genom att kombinera riktad och oriktad informationspropagering;(iii) standardmetoder för meddelande-propagering kan leda till rangbrist, vilket skadar inbäddningskvaliteten, men detta kan lösas genom en ny teknik kallad meddelande-aggregering; samt(iv) inbäddningar kan göras tolkbara, där varje egenskap motsvarar en meningsfull aspekt av nätverket.

En återkommande praktisk utmaning inom forskningen om transaktionsnätverk – och en huvudorsak till dess begränsade framsteg – är bristen på tillgängliga datamängder, till följd av de säkerhets- och integritetskrav som omger finansiell data. Denna avhandling kringgår detta problem genom att fokusera på de underliggande metodologiska utmaningarna vid modellering av nodinbäddningar för transaktionsnätverk. Omfattande empiriska utvärderingar genomförs på både proxydatamängder – bestående av kommunikations- och sociala nätverk som delar samma centrala modaliteter som verkliga bankdata – samt på offentligt tillgängliga dataset för kryptovaluta och simulerade transaktionsnätverk, vilket möjliggör bredare validering av de föreslagna modellerna.

Place, publisher, year, edition, pages
Stockholm: KTH Royal Institute of Technology, 2025. , p. 260
Series
TRITA-EECS-AVL ; 2025:100
Keywords [en]
Transactions networks, Node embeddings, Unsupervised learning, Scalable, Interpretable
Keywords [sv]
Transaktionsnätverk, Nodeimbäddningar, Oövervakad inlärning, Skalbart, Tolkningsbart
National Category
Computer Sciences
Research subject
Computer Science
Identifiers
URN: urn:nbn:se:kth:diva-373037ISBN: 978-91-8106-454-4 (print)OAI: oai:DiVA.org:kth-373037DiVA, id: diva2:2014390
Public defence
2025-12-10, https://kth-se.zoom.us/j/64433421713 / F3 (Flodis), Lindstedtsvägen 26, Stockholm, 09:00 (English)
Opponent
Supervisors
Funder
Wallenberg AI, Autonomous Systems and Software Program (WASP)
Note

QC 20251118

Available from: 2025-11-18 Created: 2025-11-17 Last updated: 2025-11-24Bibliographically approved

Open Access in DiVA

fulltext(8194 kB)88 downloads
File information
File name FULLTEXT01.pdfFile size 8194 kBChecksum SHA-512
10ee416e407cda02542a6bf7251956803a4426cf4914d1524269d2d1279d77153c8a0abd24f4ca90712c3f983ee4f3b8ed191f980f04c662349dcc9cab584673
Type fulltextMimetype application/pdf

Search in DiVA

By author/editor
Ceylan, Ciwan
By organisation
Robotics, Perception and Learning, RPL
Computer Sciences

Search outside of DiVA

GoogleGoogle Scholar
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

isbn
urn-nbn

Altmetric score

isbn
urn-nbn
Total: 1612 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf