kth.sePublications
Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Multiple Importance Sampling ELBO and Deep Ensembles of Variational Approximations
KTH, School of Electrical Engineering and Computer Science (EECS), Computer Science, Computational Science and Technology (CST). KTH, Centres, Science for Life Laboratory, SciLifeLab.ORCID iD: 0000-0002-6369-712x
KTH, Centres, Science for Life Laboratory, SciLifeLab. KTH, School of Electrical Engineering and Computer Science (EECS), Computer Science, Computational Science and Technology (CST).
KTH, School of Electrical Engineering and Computer Science (EECS), Computer Science, Computational Science and Technology (CST). KTH, Centres, Science for Life Laboratory, SciLifeLab.
Univ Edinburgh, Edinburgh, Midlothian, Scotland..
Show others and affiliations
2022 (English)In: International Conference on Artificial Intelligence and Statistics, Vol 151 / [ed] Camps-Valls, G Ruiz, FJR Valera, I, ML Research Press , 2022, Vol. 151Conference paper, Published paper (Refereed)
Abstract [en]

In variational inference (VI), the marginal log-likelihood is estimated using the standard evidence lower bound (ELBO), or improved versions as the importance weighted ELBO (IWELBO). We propose the multiple importance sampling ELBO (MISELBO), a versatile yet simple framework. MISELBO is applicable in both amortized and classical VI, and it uses ensembles, e.g., deep ensembles, of independently inferred variational approximations. As far as we are aware, the concept of deep ensembles in amortized VI has not previously been established. We prove that MISELBO provides a tighter bound than the average of standard ELBOs, and demonstrate empirically that it gives tighter bounds than the average of IWELBOs. MISELBO is evaluated in density-estimation experiments that include MNIST and several real-data phylogenetic tree inference problems. First, on the MNIST dataset, MISELBO boosts the density-estimation performances of a state-of-the-art model, nouveau VAE. Second, in the phylogenetic tree inference setting, our framework enhances a state-of-the-art VI algorithm that uses normalizing flows. On top of the technical benefits of MISELBO, it allows to unveil connections between VI and recent advances in the importance sampling literature, paving the way for further methodological advances.

Place, publisher, year, edition, pages
ML Research Press , 2022. Vol. 151
Series
Proceedings of Machine Learning Research, ISSN 2640-3498
National Category
Computer Sciences
Identifiers
URN: urn:nbn:se:kth:diva-321014ISI: 000841852305010Scopus ID: 2-s2.0-85163065516OAI: oai:DiVA.org:kth-321014DiVA, id: diva2:1708443
Conference
International Conference on Artificial Intelligence and Statistics, Virtual, Online, MAR 28-30, 2022
Note

QC 20221104

Available from: 2022-11-04 Created: 2022-11-04 Last updated: 2023-07-13Bibliographically approved
In thesis
1. Variational methods for phylogeny and single-cell genomics
Open this publication in new window or tab >>Variational methods for phylogeny and single-cell genomics
2023 (English)Doctoral thesis, comprehensive summary (Other academic)
Abstract [en]

The investigation of the evolutionary history of organisms, both at the cellular level and at the species level, is a relevant research topic in computational biology. These investigations lead to a deeper understanding of developmental history, cancer progression, the genetic similarity of species, and more. One way to study the relations between single cells or species is to examine the differences in their genomes, including single nucleotide and copy number variations. The genetic materials need to be extracted and sequenced to be used in the analyses, but this data preparation is prone to errors. The development of sophisticated, probabilistic models is of the utmost importance in handling technological artifacts and including uncertainty in the analysis. 

In this compilation thesis, we studied various questions and presented four papers to address different challenges. 

First, we focused on single cells from healthy tissue and developed a probabilistic model to reconstruct the cell lineage tree. This task is challenging in several aspects; i) the healthy cells have a low mutation rate and, therefore, do not introduce many mutations at each cell division, ii) healthy cells usually do not have significant structural variations to improve the analysis, and iii) the sequencing technology introduces errors, and some of these errors are hard to distinguish from the mutations. With the experimental studies, we showed that our model is fast, robust, and accurately reconstructs lineage trees.   

Second, we focused on cancer cells. One research topic is identifying structural variations in the cancer cells' genomes and subsequently grouping the cells with similar genome profiles. This two-step process is vulnerable; the imperfections in the first step can irreversibly impact the analysis in the second step. To address this problem, we developed a variational inference-based model that simultaneously does copy number profiling and cell clustering. In addition, we extended the model to incorporate single nucleotide variations to improve the performance. 

Third, we approached the phylogenetic tree inference problem and developed a variational inference-based model to make the inference. The tree topology space, which contains all possible phylogenetic tree structures, is enormous, and the consideration of each unique tree is intractable. Typically, the existing variational inference-based methods need to constrain their analysis to a much smaller subset of the tree space. Our proposed model does not require such constraints and can obtain similar performance while requiring significantly less time and memory. 

Finally, we addressed a challenge in variational inference. The variational inference methods target a complex, usually multimodal posterior distribution and try to approximate it using simpler, often unimodal distributions. This design choice causes the variational models to fit one out of many modes of the target distribution; hence they do not capture the overall pattern of the target distribution. We proposed a simple yet effective way to use separately trained variational models to capture the multimodality of the target distribution and demonstrated the approximation performance using several variational methods and data types. 

We addressed various challenges in computational biology with these four papers and contributed to the progress of the field by developing probabilistic models. 

Abstract [sv]

Undersökningen av organismers evolutionära historia, både på cellnivå och artnivå, är ett relevant forskningsämne inom beräkningsbiologi. Dessa studier leder till en djupare förståelse för utveckling, cancerprogression, arternas genetiska likhet med mera. Ett sätt att studera relationerna mellan enskilda celler eller arter är att undersöka skillnaderna i deras genom, inklusive enbaspolymorfier och kopienummervariationer. Det genetiska materialet behöver extraheras och sekvenseras för att användas i analyserna, men fel kan uppstå under databeredningen. Utvecklingen av sofistikerade, probabilistiska modeller är av yttersta vikt vid hantering av tekniska artefakter och inkludering av osäkerhet i analysen.

I denna sammanställningsavhandling studerade vi olika frågeställningar och presenterade fyra artiklar för att ta itu med olika utmaningar.

Först fokuserade vi på enstaka celler från frisk vävnad och utvecklade en probabilistisk modell för att rekonstruera cellhärkomstträdet. Denna uppgift är utmanande ur flera aspekter; i) de friska cellerna har en låg mutationshastighet och introducerar därför inte många mutationer vid varje celldelning, ii) friska celler har vanligtvis inte signifikanta strukturella variationer för att förbättra analysen; och iii) sekvenseringsteknologin introducerar fel, och några av dessa fel är svåra att skilja från mutationerna. Med den experimentella studien visade vi att vår modell är snabb, robust och exakt rekonstruerar härstamningsträd.

För det andra fokuserade vi på cancerceller. Ett forskningsämne är att identifiera strukturella variationer i cancercellernas genom och därefter gruppera cellerna med liknande genomprofiler. Denna tvåstegsprocess är fragil; ofullkomligheterna i det första steget kan oåterkalleligt påverka analysen i det andra steget. För att lösa detta problem utvecklade vi en variationsbaserad modell som simultant utför kopienummerprofilering och cellklustring. Dessutom utökade vi modellen för att inkorporera enskilda enbaspolymorfier för att förbättra prestandan.

För det tredje adresserade vi problemet med inferens av fylogenetiska träd och utvecklade en variationsbaserad modell för att utföra inferensen. Trädtopologirummet, som innehåller alla möjliga fylogenetiska trädstrukturer, är enormt och att ta hänsyn till varje unikt träd är omöjligt i praktiken. De befintliga variationsbaserade inferensmetoderna måste begränsa sin analys till en mycket mindre delmängd av trädrummet. Vår föreslagna modell kräver inte sådana begränsningar och kan få liknande prestanda samtidigt som den kräver betydligt mindre tid och minne.

Slutligen antog vi en utmaning i allmän variationsinferens. Variationsinferensmetoderna riktar sig mot en komplex, vanligtvis multimodal a posteriori-distribution och försöker approximera den med mycket enklare, ofta unimodala distributioner. Detta designval gör att variationsmodellerna passar en av många moder av målfördelningen, och således fångar de inte det övergripande mönstret för målfördelningen. Vi föreslog ett enkelt men effektivt sätt att använda separat tränade variationsmodeller för att fånga målfördelningens multimodalitet och demonstrerade approximationsprestandan med hjälp av flera olika metoder och datatyper.

Vi adresserade olika utmaningar inom beräkningsbiologi med dessa fyra artiklar och bidrog till fältets framsteg genom att utveckla probabilistiska modeller.

Abstract [tr]

Organizmaların evrimsel tarihinin hem hücresel hem de tür düzeyinde incelenmesi hesaplamalı biyolojide alâkalı bir araştırma konusudur. Bu konudaki araştırmalar, gelişim tarihi, kanser ilerlemesi, türlerin genetik benzerliği ve daha fazlası hakkında daha derin bir anlayışa rehberlik eder. Tek hücreler veya türler arasındaki ilişkileri incelemenin bir yolu, tek nükleotit ve kopya sayısı varyasyonları dahil olmak üzere genomlarındaki farklılıkları incelemektir. Analizlerde kullanılmak üzere genetik materyallerin çıkarılması ve dizilenmesi gerekir, ancak bu verilerin hazırlanması hatalara eğimlidir. Sofistike, olasılıksal modellerin geliştirilmesi, teknolojik hataların ele alınmasında ve belirsizliğin analize dahil edilmesinde son derece önemlidir.

Bu derleme tezinde, çeşitli soruları inceledik ve farklı zorlukları ele almak için dört makale sunduk.

İlk olarak, sağlıklı dokudaki tek hücrelere odaklandık ve hücre soy ağacını yeniden yapılandırmak için olasılıksal bir model geliştirdik. Bu görev birkaç açıdan zorlayıcıdır; i) sağlıklı hücreler düşük bir mutasyon oranına sahiptir, bu nedenle her hücre bölünmesinde pek çok mutasyon ortaya çıkarmazlar, ii) sağlıklı hücreler genellikle analizi geliştirmek için kayda değer yapısal varyasyonlara sahip değildirler; ve iii) dizileme teknolojisi hatalar ortaya çıkarır ve bu hataların bazılarını mutasyonlardan ayırt etmek zordur. Deneysel çalışmalar ile modelimizin hızlı ve gürbüz olduğunu, ve soy ağaçlarını doğru bir şekilde yeniden yapılandırdığını gösterdik.

İkinci olarak, kanser hücrelerine odaklandık. Kanser hücrelerinin genomlarındaki yapısal varyasyonları belirlemek ve ardından benzer genom profillerine sahip hücreleri gruplandırmaktır bir araştırma konusudur. Bu iki adımlı sürecin hatalara zafiyeti vardır; ilk adımdaki kusurlar, ikinci adımdaki analizi geri döndürülemez şekilde etkileyebilir. Bu sorunu çözmek için, aynı anda kopya numarası profili ve hücre kümelemesi yapan varyasyonel çıkarıma dayalı bir model geliştirdik. Ek olarak, performansı iyileştirmek için modeli tek nükleotid varyasyonlarını içerecek şekilde genişlettik.

Üçüncü olarak, filogenetik ağaç çıkarım problemine odaklandık ve bunun için varyasyonel çıkarıma dayalı bir model geliştirdik. Tüm olası filogenetik ağaç yapılarını içeren ağaç topoloji uzayı çok büyüktür; ve her özgün ağacın dikkate alınması zordur. Mevcut varyasyonel çıkarıma dayalı yöntemlerin, genellikle analizlerini ağaç uzayının çok daha küçük bir alt kümesiyle sınırlaması gerekir. Önerilen modelimiz bu tür kısıtlamalar gerektirmediği gibi, önemli ölçüde daha az zaman ve belleğe ihtiyaç duyarak benzer performans elde edebilir.

Son olarak, varyasyonel çıkarımdaki bir zorluğu ele aldık. Varyasyonel çıkarım yöntemleri, karmaşık, genellikle çok modlu bir sonsal dağılımı hedefler ve daha basit, genellikle tek modlu dağılımlar kullanarak buna yaklaşmaya çalışır. Bu tasarım seçimi, varyasyonel modellerin hedef dağılımın birçok modundan birine uymasına neden olur; dolayısıyla hedef dağılımın genel yapısını yakalayamaz. Hedef dağılımın çok modluluğunu yakalamak için basit ama etkili bir şekilde ayrı olarak eğitilmiş varyasyonel modelleri kullanmayı önerdik; ve birkaç varyasyonel yöntem ve veri türü kullanarak yaklaşım performansını gösterdik.

Bu dört makale ile hesaplamalı biyolojideki çeşitli zorlukları ele aldık ve olasılıksal modeller geliştirerek alanın ilerlemesine katkıda bulunduk.

Place, publisher, year, edition, pages
Stockholm: KTH Royal Institute of Technology, 2023. p. xx, 83
Series
TRITA-EECS-AVL ; 2023:11
Keywords
Variational inference, single-cell DNA sequencing, cell lineage tree, Bayesian phylogenetic tree inference, Variationsinferens, encellig DNA-sekvensering, cellhärkomstträd, Bayesiansk fylogenetisk trädinferens, Varyasyonel çıkarım, tek hücre DNA dizilimi, hücre soy ağacı, Bayesçi filogenetik ağaç çıkarımı
National Category
Computer Sciences
Research subject
Computer Science
Identifiers
urn:nbn:se:kth:diva-323293 (URN)978-91-8040-471-6 (ISBN)
Public defence
2023-02-17, https://kth-se.zoom.us/j/69058691435, Air & Fire, SciLifeLab, Tomtebodavägen 23, Solna, 14:00 (English)
Opponent
Supervisors
Funder
Swedish Foundation for Strategic Research, BD15-0043
Note

QC 20230125

Available from: 2023-01-25 Created: 2023-01-24 Last updated: 2023-02-02Bibliographically approved

Open Access in DiVA

No full text in DiVA

Scopus

Authority records

Kviman, OskarMelin, HaraldKoptagel, HazalLagergren, Jens

Search in DiVA

By author/editor
Kviman, OskarMelin, HaraldKoptagel, HazalLagergren, Jens
By organisation
Computational Science and Technology (CST)Science for Life Laboratory, SciLifeLab
Computer Sciences

Search outside of DiVA

GoogleGoogle Scholar

urn-nbn

Altmetric score

urn-nbn
Total: 89 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf