kth.sePublications
Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Variational Auto Encoder Gradient Clustering
KTH, School of Engineering Sciences (SCI), Mathematics (Dept.), Mathematical Statistics.
KTH, School of Engineering Sciences (SCI), Mathematics (Dept.), Mathematical Statistics.ORCID iD: 0000-0001-9147-4022
KTH, School of Engineering Sciences (SCI), Mathematics (Dept.), Mathematical Statistics.ORCID iD: 0000-0001-9210-121X
(English)Manuscript (preprint) (Other academic)
National Category
Probability Theory and Statistics
Identifiers
URN: urn:nbn:se:kth:diva-295219OAI: oai:DiVA.org:kth-295219DiVA, id: diva2:1555527
Note

QC 20210519

Available from: 2021-05-18 Created: 2021-05-18 Last updated: 2023-10-02Bibliographically approved
In thesis
1. Topics on Generative Models in Machine Learning
Open this publication in new window or tab >>Topics on Generative Models in Machine Learning
2021 (English)Doctoral thesis, comprehensive summary (Other academic)
Abstract [en]

Latent variable models have been extensively studied within the field of machine learning in recent years. Especially in combination with neural networks and training through back propagation, they have proven successful for a variety of tasks; notably sample gener- ation, clustering, disentanglement and interpolation. This thesis con- sists of four papers, treating different subjects in this context. In Paper A, the Infinite Swapping algorithm is applied to the Restricted Boltz- mann Machine model. The Infinite Swapping algorithm is an extension of Parallel Tempering, an algorithm developed for speeding up conver- gence of Markov Chains. Since the Restricted Boltzmann Machine requires sample generation during training, such techniques are rele- vant for application to the model. Previously, Parallel Tempering has been demonstrated to yield superior training results when compared to preceding methods. Paper A continues this effort by adapting the Infinite Swapping algorithm to the setting of Restricted Boltzmann Machines. The remaining three papers treats the Variational Autoen- coder model. In paper B and C, methods for stochastic interpolation is introduced, and mathematically investigated. In this context, inter- polation is taken to mean a semantically meaningful transformation from one observation to another. Within image analysis, this trans- lates to displaying a sensible visual transformation from one object to another. Previously presented interpolation methods within the field have exclusively focused on the concept of deterministic interpolation; essentially aiming to find ’the correct’ or in some sense optimal in- terpolation path. In paper B and C, a different view of interpolation is introduced; where the correct interpolation paths are characterised by a distribution that is possible to sample from. It is proven that the suggested interpolation distribution produces samples that lie in the manifold specified by the Variational Autoencoder prior if hyper parameters are chosen correctly; thus giving some theoretical assur- ance that the interpolation distribution produces sensible samples in general. In paper D, the Variational Autoencoder framework is inves- tigated for clustering. Here, clustering is viewed from a probabilistic perspective. Given a multi-modal distribution, each mode is viewed as a cluster label, and an observation is assigned a label through following its density gradient until a mode is reached. An effective method for estimating the density gradient for Variational Autoencoders is pro- posed, and empirically tested. A method for estimating the inherent number of clusters of data in this context is further introduced, and it is demonstrated that it performs significantly better on data processed with the density gradient, compared to when applied to original data. 

Abstract [sv]

Modeller med latenta variabler har studerats intensivt inom maskininlärning de senaste åren. Speciellt i kombination med neurala nätverkhar dessa visat sig kapabla inom ett antal områden; exempelvis generering av syntetisk data, klustring, feature-identifiering och interpolation.Den här avhandlingen består av fyra artiklar, vilka behandlar olika delområden i denna kontext. I artikel A applicerar vi Infinite Swappingalgoritmen till begränsade Boltzmann-maskiner. Infinite Swapping ären utveckling av Parallel Tempering, en algoritm utvecklad för attsnabba upp konvergensen av Markovkedjor. Då Boltzmann-maskinenkräver sampling från dess komplexa fördelning under träning, är dessa metoder relevanta. I litteraturen har det tidigare demonstreratsatt Parallel Tempering signifikant förbättrar träningen av Boltzmannmaskinen. Artikel A fortsätter i samma anda, genom att anpassa Infinite Swapping-algoritmen till Boltzmann-maskinen. De resterande treartiklarna behandlar olika aspekter av Variational Autoencoders. I artiklarna B och C introduceras och undersöks metoder för stokastisk interpolation. I den här kontexten menar vi med interpolation uppgiftenatt producera en rimlig transformation från en observation till en annan. Inom bildanalys innebär detta en trovärdig visuell transformationfrån ett objekt till ett annat objekt. Tidigare metoder för interpolationinom området har uteslutande fokuserat på deterministisk interpolation. Deterministisk interpolation avser finna en ’korrekt’ eller i någonmån ’optimal’ interpolationsväg. I artikel B och C introduceras ett annat synsätt, där ett antal ’korrekta’ interpolationsvägar karaktäriserasav en fördelning vilken är möjlig att simulera från. Bevis för att simuleringar dragna från de föreslagna fördelningarna ligger i den mångfaldsom specificeras av apriori-fördelningen presenteras; vilket ger teoretiskt stöd till att metoden generellt producerar rimliga observationer.I artikel D används Variational Autoencoders inom klustring. Ett probabilistiskt perspektiv intas, där varje lokalt maxima hos en fördelningantas representera ett kluster. En observation tillskrivs ett kluster genom att följa dess fördelnings-gradient till första lokala maxima. Eneffektiv metod för att skatta gradienten för Variational Autoencoderspresenteras, och implementeras praktiskt för empiriska test. Vidare introduceras en metod för att estimera ett naturligt antal kluster för endatamängd. Det påvisas att denna metod presterar signifikant bättrenär den appliceras till data behandlad med gradienten, i jämförelsemed när den appliceras till data i originalformat

Place, publisher, year, edition, pages
Kungliga tekniska högskolan, 2021. p. 29
Series
TRITA-SCI-FOU ; 2021;26
National Category
Probability Theory and Statistics
Identifiers
urn:nbn:se:kth:diva-295220 (URN)978-91-7873-922-6 (ISBN)
Public defence
2021-06-14, Via Zoom: https://kth-se.zoom.us/webinar/register/WN_i5n8HpJgS0Wh2YpQ_uOCfw, 13:00 (English)
Opponent
Supervisors
Available from: 2021-05-20 Created: 2021-05-18 Last updated: 2022-06-25Bibliographically approved
2. Topics on Large Deviations in Artificial Intelligence
Open this publication in new window or tab >>Topics on Large Deviations in Artificial Intelligence
2023 (English)Doctoral thesis, comprehensive summary (Other academic)
Abstract [en]

Artificial intelligence has become one of the most important fields of study during the last decade. Applications include medical sciences, autonomous vehicles, finance and everyday life. Therefore the analysis of convergence and stability of these algorithms is of utmost importance. One way of analysing the stability and speed of convergence is by the large deviations theory. In large deviations theory, a rate function characterises the exponential rate of convergence of stochastic processes. For example, by evaluating the rate function for stochastic approximation algorithms for training neural networks, faster convergence can be achieved. This thesis consists of five papers that use ideas from large deviation theory to understand and improve specific machine-learning models. 

Paper I proves that a stochastic approximation algorithm satisfies the large deviation principle with a specific rate function. This class of stochastic approximation contains many interesting learning algorithms, such as stochastic gradient descent, persistent contrastive divergence and the Wang-Landau algorithm.

Analysing the rate function from Paper I is not straightforward. In Paper II, we use tools from weak KAM theory to characterise the rate function. The rate function takes the form of a Lagrangian and can be evaluated by calculating the viscosity solution to the corresponding Hamilton-Jacobi equations. In Paper II, we also identify the projected Aubry set, a set of great importance when it comes to describing the viscosity solutions.  

Papers III, IV and V all involve Variational autoencoders (VAE), a generative deep learning model with a latent space structure. In Paper III, we develop an evaluation metric for VAEs based on large deviation theory. The idea is to measure the difference between the induced empirical measure and the prior on the latent space. This is done by training an adversarial deep neural network and proving a modified version of Sanov's theorem. 

Using the adversarial network from Paper III, we develop a stochastic interpolation algorithm for VAEs in Paper IV. The interpolation uses bridge processes and the adversarial network to construct paths that respects both the prior and generate high-quality interpolation paths.

Finally, in Paper V, a clustering algorithm is introduced. The VAE induces a probability distribution on the data space, and in this paper, we introduce an algorithm to estimate the gradient of the distribution. This leads to a stochastic approximation algorithm that gathers data in clusters. 

Abstract [sv]

Artificiell intelligens har blivit en av de viktigaste forskningsfälten de senaste åren. Användningsområden finns inom medicin forskning, självkörande fordon, finans samt vardagsbruk. Analysen av stabilitet och konvergens av dessa algoritmer har därför aldrig varit viktigare. Ett sätt att analysera dessa algoritmer är med hjälp av stora avvikelser teori. I stora avvikelser teori, en hastighets-funktion som karakteriserar den exponentiella konvergens hastigheten för stokastiska processer. Till exempel, genom att evaluera hastighets-funktionen för stokastisk approximations algoritmer för träning av neurala nätverk, snabbare konvergens kan uppnås. Den här avhandlingen består av fem artiklar som tar idéer från stora avvikelser teori för att förstå och förbättra utvalda maskininlärnings modeller. 

Artikel I bevisar att en stokastisk approximations algoritm uppfyller stora avvikelser principen med en specifik hastighest-funktion. Den här klassen av stokastisk approximation innehåller många intressanta maskininlärmnings metoder såsom, stokastisk gradient nedstigning, persistent contrastive divergence och Wang-Landau algoritmen. 

Att analysera hastighetsfunktionen från artikel I är inte enkelt. I artikel II, använder vi verktyg från svag KAM teori för att karakterisera hastighetsfunktionen. Hastighetsfunktionen är på formen av en Lagrangian och kan evalueras genom att hitta viscositetslösningar till motsvarande Hamilton-Jacobi ekvation. I Artikel II så identifierar vi den projicerade Aubry mängden, en mängd som är av stor vikt när det kommer till att beskriva viscositetslönsingar.

Artiklarna III, IV, V behandlar alla Variational autoencers (VAE), en generativ djup inlärningsmodell med latent variabel struktur. I Artikel III, utveklar vi en evaluerings metrik för VAEs baserat på stora aviklser teori. Ideen är att mäta skillnaden mellan den inducerade empiriska måttet och priori fördelningen på latenta rummet. Det åstakoms genom att träna ett adversalt nätverk och genom att bevisa en modifierad version av Sanovs sats. 

Genom att använda det adversala nätverket från artikel III vi utvecklar en stochastisk intepolations algoritm i artikel IV. Interpolations artikeln använder brygg processer och adversala nätverket för att generera interpolationer som respekterar priori fördelningen och genererar hög-kvalitativa trajektorier. 

Slutligen i artikel IV, introduceras en klustringsalgoritm. VAE inducerar en sannolikhetsförednling på data rummet, och i denna artikel, vi introducerar en algoritm för att estimera gradienten av fördelningen. Detta leder till stokastisk approximations algoritm som samlar datan i olika kluster.  

Place, publisher, year, edition, pages
KTH Royal Institute of Technology, 2023. p. 189
Series
TRITA-SCI-FOU ; 2023:49
National Category
Probability Theory and Statistics
Research subject
Applied and Computational Mathematics, Mathematical Statistics
Identifiers
urn:nbn:se:kth:diva-337383 (URN)978-91-8040-711-3 (ISBN)
Public defence
2023-10-27, F3, Lindstedtsvägen 26, Stockholm, 13:00 (English)
Supervisors
Funder
Wallenberg AI, Autonomous Systems and Software Program (WASP)
Note

QC 2023-10-03

Available from: 2023-10-03 Created: 2023-10-02 Last updated: 2023-10-09Bibliographically approved

Open Access in DiVA

fulltext(2259 kB)429 downloads
File information
File name FULLTEXT01.pdfFile size 2259 kBChecksum SHA-512
4f6dcbbac4f6765c5cc49bc8956df5717236238d0710827db84928f0b09f1d26d4b70aaf1bf1724889f5480a5a7e010a36adb16a9aeb7351e6639ab951787863
Type fulltextMimetype application/pdf

Authority records

Ringqvist, CarlLindhe, AdamHult, Henrik

Search in DiVA

By author/editor
Ringqvist, CarlLindhe, AdamHult, Henrik
By organisation
Mathematical Statistics
Probability Theory and Statistics

Search outside of DiVA

GoogleGoogle Scholar
Total: 429 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 181 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf