Open this publication in new window or tab >>2025 (English)Doctoral thesis, comprehensive summary (Other academic)
Abstract [en]
We advance Black-Box Variational Inference (BBVI) by improving its flexibility, scalability, and applicability to real-world challenges. In Paper I, we demonstrate that integrating mixture-based variational distributions into VAEs—leveraging adaptive importance sampling—enhances posterior expressiveness and mitigates mode collapse in applications such as image and single- cell analysis. Paper II introduces MISVAE, along with two novel ELBO estimators—Some-to-All and Some-to-Some—which enable efficient training with hundreds of mixture components and achieve state-of-the-art performance on the MNIST and Fashion-MNIST datasets. Paper III shifts focus to real-world applications by presenting the Klarna Product Page Dataset, a diverse benchmark for web element nomination, where we achieve strong performance by benchmarking GNNs in combination with GPT-4. Additionally, the dataset has been leveraged in generative modeling tasks, facilitating the learning of latent web page representations and the generation of complex web interfaces using VAEs. Finally, Paper IV provides new smoothness results and gradient variance bounds for BBVI under non-linear scale parameterizations, highlighting advantages in large-data regimes. Collectively, these contributions extend the frontiers of BBVI for tackling high-dimensional, structured data in both theory and practice.
Abstract [sv]
Vi bidrar till Black-Box Variational Inference (BBVI) genom att förbättra dess flexibilitet, skalbarhet och tillämpbarhet för praktiska tillämpningar. I Paper I visar vi att integrationen av mixture-baserade variational-fördelningar i VAEs – med hjälp av adaptiv importance sampling – förbättrar posteriorfördelningens uttrycksfullhet och motverkar modekollaps i tillämpningar såsom bild- och single-cell-analys. Paper II introducerar MISVAE tillsammans med nya ELBO-estimatorer (Some-to-All och Some-to-Some), vilka möjliggör effektiv träning med hundratals mixture-komponenter och ger resultat i framkant på MNIST och Fashion-MNIST. Paper III fokuserar på praktiska tillämpningar genom att presentera Klarna Product Page Datasetet, ett mångsidigt benchmark för nominering av webbelement, där vi uppnår starka resultat genom att benchmarka GNN:er i kombination med GPT-4. Dessutom har datasetet använts i generativa modelleringsuppgifter, vilket underlättar inlärningen av latenta representationer av webbsidor samt genereringen av komplexa webbgränssnitt med hjälp av VAEs. I Paper IV utforskar vi de teoretiska grunderna för BBVI med icke-linjära skalparametriseringar, såsom exponentiella och softplus-transformationer. Vi härleder nya strukturella resultat och gradientvariansgränser och visar att icke-linjära parametriseringar förbättras med stora dataset. Genom dessa bidrag skapar avhandlingen en länk mellan teoretiska framsteg och praktiska tillämpningar. Således lyfter avhandlingen fram hur flexibla och effektiva probabilistiska inferensmetoder kan hantera högdimensionella och strukturerade dataproblem inom både forskning och industri.
Place, publisher, year, edition, pages
Stockholm: KTH Royal Institute of Technology, 2025. p. vii, 68
Series
TRITA-EECS-AVL ; 2025:50
Keywords
Variational Inference, Mixture Models, Variational Autoencoders, Black-Box Variational Inference, Bayesian Inference, Web Automation, Graph Neural Networks, Large Language Models, Adaptive Importance Sampling, ELBO, Gradient Variance Bounds
National Category
Computer Sciences
Research subject
Computer Science
Identifiers
urn:nbn:se:kth:diva-363692 (URN)978-91-8106-278-6 (ISBN)
Public defence
2025-06-02, F3 (Flodis), Lindstedtsvägen 26 & 28, KTH Campus, Stockholm, 14:00 (English)
Opponent
Supervisors
Note
QC 20250521
2025-05-212025-05-202025-06-30Bibliographically approved