Open this publication in new window or tab >>2021 (English)Doctoral thesis, comprehensive summary (Other academic)
Abstract [en]
Latent variable models have been extensively studied within the field of machine learning in recent years. Especially in combination with neural networks and training through back propagation, they have proven successful for a variety of tasks; notably sample gener- ation, clustering, disentanglement and interpolation. This thesis con- sists of four papers, treating different subjects in this context. In Paper A, the Infinite Swapping algorithm is applied to the Restricted Boltz- mann Machine model. The Infinite Swapping algorithm is an extension of Parallel Tempering, an algorithm developed for speeding up conver- gence of Markov Chains. Since the Restricted Boltzmann Machine requires sample generation during training, such techniques are rele- vant for application to the model. Previously, Parallel Tempering has been demonstrated to yield superior training results when compared to preceding methods. Paper A continues this effort by adapting the Infinite Swapping algorithm to the setting of Restricted Boltzmann Machines. The remaining three papers treats the Variational Autoen- coder model. In paper B and C, methods for stochastic interpolation is introduced, and mathematically investigated. In this context, inter- polation is taken to mean a semantically meaningful transformation from one observation to another. Within image analysis, this trans- lates to displaying a sensible visual transformation from one object to another. Previously presented interpolation methods within the field have exclusively focused on the concept of deterministic interpolation; essentially aiming to find ’the correct’ or in some sense optimal in- terpolation path. In paper B and C, a different view of interpolation is introduced; where the correct interpolation paths are characterised by a distribution that is possible to sample from. It is proven that the suggested interpolation distribution produces samples that lie in the manifold specified by the Variational Autoencoder prior if hyper parameters are chosen correctly; thus giving some theoretical assur- ance that the interpolation distribution produces sensible samples in general. In paper D, the Variational Autoencoder framework is inves- tigated for clustering. Here, clustering is viewed from a probabilistic perspective. Given a multi-modal distribution, each mode is viewed as a cluster label, and an observation is assigned a label through following its density gradient until a mode is reached. An effective method for estimating the density gradient for Variational Autoencoders is pro- posed, and empirically tested. A method for estimating the inherent number of clusters of data in this context is further introduced, and it is demonstrated that it performs significantly better on data processed with the density gradient, compared to when applied to original data.
Abstract [sv]
Modeller med latenta variabler har studerats intensivt inom maskininlärning de senaste åren. Speciellt i kombination med neurala nätverkhar dessa visat sig kapabla inom ett antal områden; exempelvis generering av syntetisk data, klustring, feature-identifiering och interpolation.Den här avhandlingen består av fyra artiklar, vilka behandlar olika delområden i denna kontext. I artikel A applicerar vi Infinite Swappingalgoritmen till begränsade Boltzmann-maskiner. Infinite Swapping ären utveckling av Parallel Tempering, en algoritm utvecklad för attsnabba upp konvergensen av Markovkedjor. Då Boltzmann-maskinenkräver sampling från dess komplexa fördelning under träning, är dessa metoder relevanta. I litteraturen har det tidigare demonstreratsatt Parallel Tempering signifikant förbättrar träningen av Boltzmannmaskinen. Artikel A fortsätter i samma anda, genom att anpassa Infinite Swapping-algoritmen till Boltzmann-maskinen. De resterande treartiklarna behandlar olika aspekter av Variational Autoencoders. I artiklarna B och C introduceras och undersöks metoder för stokastisk interpolation. I den här kontexten menar vi med interpolation uppgiftenatt producera en rimlig transformation från en observation till en annan. Inom bildanalys innebär detta en trovärdig visuell transformationfrån ett objekt till ett annat objekt. Tidigare metoder för interpolationinom området har uteslutande fokuserat på deterministisk interpolation. Deterministisk interpolation avser finna en ’korrekt’ eller i någonmån ’optimal’ interpolationsväg. I artikel B och C introduceras ett annat synsätt, där ett antal ’korrekta’ interpolationsvägar karaktäriserasav en fördelning vilken är möjlig att simulera från. Bevis för att simuleringar dragna från de föreslagna fördelningarna ligger i den mångfaldsom specificeras av apriori-fördelningen presenteras; vilket ger teoretiskt stöd till att metoden generellt producerar rimliga observationer.I artikel D används Variational Autoencoders inom klustring. Ett probabilistiskt perspektiv intas, där varje lokalt maxima hos en fördelningantas representera ett kluster. En observation tillskrivs ett kluster genom att följa dess fördelnings-gradient till första lokala maxima. Eneffektiv metod för att skatta gradienten för Variational Autoencoderspresenteras, och implementeras praktiskt för empiriska test. Vidare introduceras en metod för att estimera ett naturligt antal kluster för endatamängd. Det påvisas att denna metod presterar signifikant bättrenär den appliceras till data behandlad med gradienten, i jämförelsemed när den appliceras till data i originalformat
Place, publisher, year, edition, pages
Kungliga tekniska högskolan, 2021. p. 29
Series
TRITA-SCI-FOU ; 2021;26
National Category
Probability Theory and Statistics
Identifiers
urn:nbn:se:kth:diva-295220 (URN)978-91-7873-922-6 (ISBN)
Public defence
2021-06-14, Via Zoom: https://kth-se.zoom.us/webinar/register/WN_i5n8HpJgS0Wh2YpQ_uOCfw, 13:00 (English)
Opponent
Supervisors
2021-05-202021-05-182022-06-25Bibliographically approved