kth.sePublications
Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Self-Supervised Learning of Multivariate Time Series Embedding via Diffusion Processes and using Imputation-Interpolation-Forecasting Masking: Representation Learning for Multivariate Time Series data using Diffusion Models
KTH, School of Electrical Engineering and Computer Science (EECS).
2024 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesisAlternative title
Självövervakad inlärning av inbäddning för multivariata tidsserier genom diffusionsbaserade metoder och imputations-interpolations-prognosmaskering : Representationsinlärning för data från multivariata tidsserier med användning av diffusionsmodeller (Swedish)
Abstract [en]

Multivariate Time Series (MTS) data, characterized by their sequential observations over time across multiple variables, are pivotal in diverse fields such as finance, healthcare, and environmental monitoring. Despite their widespread applicability, a significant challenge persists in effectively learning and leveraging embeddings from MTS data for various modeling tasks like imputation, forecasting, classification and anomaly detection. Traditional Self-Supervised Learning (SSL) approaches, including reconstructive, adversarial, contrastive, and predictive methods, for Time Series Representation Learning (TSRL) struggle with noise sensitivity and adequately capturing the intricate nuances of MTS data. This gap underscores a critical need for innovative methods that can robustly handle the complexity of MTS while providing versatile and informative representations. This thesis investigates the advanced generative capabilities of diffusion-based methods, which, until now, have primarily been applied to specific tasks such as imputation and forecasting, and explores their potential utility for generic TSRL. Our contribution, termed Time Series Diffusion Embedding (TSDE), marks a pioneering diffusion-based SSL approach to TSRL. TSDE segments Time Series (TS) data into observed and masked portions, employing an Imputation-Interpolation-Forecasting (IIF) mask. It utilizes dual-orthogonal Transformer encoders with a crossover mechanism to embed the observed data, and subsequently trains a reverse diffusion process that is conditioned on these embeddings to predict the noise added to the masked part. This method not only facilitates the self-supervised learning of embeddings but also ensures their applicability across various downstream tasks without the need for extensive labeled data. Extensive experimentation across tasks such as imputation, interpolation, forecasting, anomaly detection, classification, and clustering demonstrates TSDE’s superior performance relative to existing state-of-the-art methods, like CSDI model. An ablation study, embedding visualizations, and comparisons of inference speed further validate TSDE’s efficiency and effectiveness in learning robust representations of MTS data. The results of this thesis not only showcase a significant enhancement in performance, marked by an improvement up to 17.3% in RMSE over traditional methods, but also highlight the qualitative advantages of TSDE. This research marks a significant step forward in the processing and modeling of time series data, offering a flexible and competitive alternative to existing methodologies. By facilitating the learning of generic embeddings in a self-supervised fashion and leveraging Diffusion Models (DMs), TSDE opens new avenues for exploration and application in time series analysis across various domains.

Abstract [sv]

Data från multivariata tidsserier (MTS), som kännetecknas av dess sekventiella observationer över tid och variabler, är av stor betydelse inom flera olika domäner, till exempel finans, hälsovård och miljöövervakning. Trots deras omfattande tillämpbarhet, kvarstår en betydande utmaning i att effektivt lära sig och utnyttja inbäddningar från MTS-data för olika modelleringsuppgifter som imputation, prognostisering, klassificering och avvikelsedetektering. Traditionella metoder för självövervakad inlärning (SSL) såsom rekonstruktiva, antagonistiska, kontrastiva och prediktiva metoder för inlärning av tidsserierepresentationer (TSRL), har hög känslighet för brus och problem med att tillvarata intrikata nyanser i MTS-data. Dessa utmaningar visar på ett behov av nya, innovativa metoder som tillförlitligt kan hantera komplexiteten i MTS-data samtidigt som de tillhandahåller mångsidiga och informativa representationer. Denna uppsats undersöker om de avancerade generativa förmågorna hos diffusionsbaserade metoder, som hittills främst har tillämpats på specifika uppgifter som imputation och prognostisering, kan utnyttjas för generisk TSRL. Därtill presenteras vårt bidrag, TSDE (Time Series Diffusion Embedding), en banbrytande diffusionsbaserad SSL metod för TSRL. TSDE segmenterar tidsseriedata i observerade och maskerade delar, och applicerar en imputations-interpolations-prognosmaskering. En dubbel-ortogonal transformerkodare med en överkorsningsmekanism utnyttjas för inbäddning av den observerade datan och tränar sedan en omvänd diffusionsprocess betingad på dessa inbäddningar för att förutsäga det till den maskerade delen tillagda bruset. Denna metod tillåter inte bara självövervakad inlärning av inbäddningar utan säkerställer också deras tillämpbarhet över vissa nedströmsuppgifter utan krav på omfattande märkning av data. Omfattande experiment i uppgifter som imputation, interpolation, prognostisering, avvikelsedetektering, klassificering och klusteranalys demonstrerar TSDE:s överlägsna prestanda jämfört med befintliga state-of-the-artmetoder som till exempel CSDI-modellen. En ablationsstudie, visualiseringar av inbäddningar och jämförelser av inferenshastighet validerar ytterligare TSDE:s effektivitet och förmåga att lära sig robusta representationer av MTS-data. Resultaten av detta arbete visar inte bara en betydande förbättring i prestanda med en förbättring på upp till 17,3% i RMSE jämfört med traditionella metoder, utan också på de kvalitativa fördelarna med TSDE. Detta forskningsarbete utgör ett betydande steg framåt i bearbetningen och modelleringen av tidsseriedata och erbjuder ett flexibelt och konkurrenskraftigt alternativ till befintliga metoder. Genom att underlätta inlärning av generiska inbäddningar på ett självövervakat sätt och utnyttja diffusionsmodeller, öppnar TSDE upp nya vägar för utforskning och tillämpning av tidsserieanalys i många olika domäner.

Place, publisher, year, edition, pages
2024. , p. 91
Series
TRITA-EECS-EX ; 2024:466
Keywords [en]
Multivariate time-series, Diffusion models, Self-Supervised Learning, Representation Learning, Imputation, Interpolation, Forecasting, Classification, Anomaly Detection, Masking
Keywords [sv]
Multivariata tidsserier, diffusionsmodeller, självövervakat lärande, representationsinlärning, imputering, interpolation, prognostisering, klassificering, avvikelsedetektering, maskering
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-351554OAI: oai:DiVA.org:kth-351554DiVA, id: diva2:1887672
External cooperation
EQT Partners AB
Supervisors
Examiners
Available from: 2024-09-23 Created: 2024-08-08 Last updated: 2024-09-23Bibliographically approved

Open Access in DiVA

fulltext(2062 kB)327 downloads
File information
File name FULLTEXT01.pdfFile size 2062 kBChecksum SHA-512
d5f84ed6f045a62fbcbc3192a06c01b6daaeeca13fb09e79336f5753f05ff49c0880570b14e57e514f67f07093064cf5456a7ad1e74265c45c3ad6e277a7e693
Type fulltextMimetype application/pdf

By organisation
School of Electrical Engineering and Computer Science (EECS)
Computer and Information Sciences

Search outside of DiVA

GoogleGoogle Scholar
Total: 327 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 320 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf