Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Multivariate Time Series Deep Clustering: Customer segmentation by financial transactions
KTH, School of Electrical Engineering and Computer Science (EECS).
2019 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesis
Abstract [en]

One of the most widely used technique in the service sector is customer segmentation. With the radical data science transformation that is currently happening in every industry, customer segmentation techniques are quickly shifting to more advanced Artificial Intelligence approaches. The unsupervised Machine Learning area of clustering can help in solving this task and it is currently used in many real case scenarios. However, when it comes to perform customer segmentation using clustering techniques over transactional data, defining a proper method can be not so straight-forward. Many research works, tried to solve this task by aggregating the time-series of transactions using a set of explanatory indicators, and subsequently applying traditional clustering methods. Nonetheless, this process can lead to loss of information as well as biased outcome due to the manual choice of aggregation functions. This thesis aims to overcome this problem proposing a Deep Learning approach, usually used in images field, that enables handling raw time-series of transactions. First, a compressed representation of the raw time-series is generated by employing an undercomplete autoencoder, and secondly an ad-hoc designed Neural Network is used to modify the found representation and making it more suitable for the clustering task. The learning happens by jointly optimize the autoencoder reconstruction loss and a specifically chosen clustering loss. Results are then validated both in a syntactic and in a semantic way by using clustering quality metrics and by involving domain experts. From a syntactic point of view, experiments comparing the proposed method with classical clustering approaches applied to transactional data, show that the resulting clusters are more cohesive and spread, achieving significantly higher silhouette score. From a semantic perspective, results confirm the proposed approach as a good starting point to generate informative clusters, but more assessments on the method stability in different set-ups and clusters’ interpretability are still needed. Being this a first attempt of applying deep clustering techniques to raw transactional data, many limitations still need to be investigated. The way transactions are pre-processed and the choice of the neural network’s layers leave unexplored areas for improvements.

Abstract [sv]

En av de mest använda teknikerna inom tjänstesektorn är customer segmentation. Med denradikala data science omvandlingen som för närvarande sker i varje bransch, växlar customer segmentation snabbt till mer avancerade Artificial Intelligence-strategier. Det unsupervised machine learning för clustering kan hjälpa till att lösa denna uppgift och denanvänds för närvarande i många verkliga fallsscenarier. Men när det gäller att utföra customer segmentation med clustering tekniker över transaktions-data, kan det inte vara så rakt fram att definiera en korrekt metod. Många forskningsarbeten försökte lösa denna uppgift genom att aggregera tidsserien för transaktioner med hjälp av en uppsättning förklarande indikatorer och sedan använda traditionella clustering metoder. Icke desto mindre kan denna process leda till förlust av information såväl som partiskt resultat pågrund av det manuella valet av aggregeringsfunktioner. Denna avhandling syftar till att övervinna detta problemet genom att en Deep Learning-strategi, används vanligtvis i bilderfält, som möjliggör hantering av rå tidsserie av transaktioner. Först genereras en kom-primerad representation av den råa tidsserien genom att använda en under-complete autoencoder, och för det andra används ett ad hoc-designat Neural Network för att modifiera den hittade representationen och göra den mer lämplig för clustering. Inlärningen sker genom att gemensamt optimerat autoencoder reconstruction loss och specifikt utformad clustering loss. Resultaten valideras sedan både på ett syntaktiskt och på ett semantiskt sätt genom att använda kvalitetsmätningar för clustering och genom att involvera domänexperter. Ur syntaktisk synvinkel visar experiment som jämför den föreslagna metoden med klassiska clustering metoder tillämpade på transaktionsdata att de resulterande clusters är mer sammanhängande och spridda, vilket uppnår signifikant högre silhouette score. Ur ett semantiskt perspektiv bekräftar resultaten det föreslagna tillvägagångssättet som en bra utgångspunkt för att generera informativa clusters, men fler bedömningar av metodstabiliteten i olika uppsättningar och klusterens tolkbarhet behövs fortfarande. Eftersom detta är ett första försök att tillämpa deep clustering tekniker på råa transaktionsdata måste många begränsningar fortfarande utforskas. Hur transaktioner förbehandlas och valet av lager i nervnätverket lämnar outforskade områden för förbättringar.

Place, publisher, year, edition, pages
2019. , p. 70
Series
TRITA-EECS-EX ; 2019:648
Keywords [en]
Clustering, Multivariate Time Series, Deep Learning, Autoencoders, Customer Segmentation, Transactional Data.
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-264213OAI: oai:DiVA.org:kth-264213DiVA, id: diva2:1372523
External cooperation
Politecnico di Milano
Examiners
Available from: 2019-11-25 Created: 2019-11-25 Last updated: 2019-11-25Bibliographically approved

Open Access in DiVA

No full text in DiVA

By organisation
School of Electrical Engineering and Computer Science (EECS)
Computer and Information Sciences

Search outside of DiVA

GoogleGoogle Scholar

urn-nbn

Altmetric score

urn-nbn
Total: 232 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf