Open this publication in new window or tab >>2022 (English)Doctoral thesis, comprehensive summary (Other academic)
Abstract [en]
Transcriptomics techniques, whether in the form of bulk, single cell/nuclei, or spatial methods have fueled a substantial expansion of our knowledge about the biological systems within and around us. In addition, the rate of innovation has accelerated over the last decade, resulting in a multitude of technological advances and new methods for generation of transcriptomics data. In 2009, isolating and characterizing the transcriptome of a single cell was seen as a major achievement, ten years later, in 2019, studies surveying a hundred thousand cells were commonplace. The field of spatial transcriptomics went through an equally transformative phase; from struggling with simultaneous characterization of a few targets, to seamlessly provide spatially resolved maps of the full transcriptome. Inevitably, we’re approaching an inflection point where the generation of data is no longer the bottleneck, but rather its analysis. Alas, with standardized commercial products, high-quality spatial transcriptomics data can now be generated en masse. Hence, questions about data analysis have started to replace those of data generation. The work in this thesis seeks to address some of these emerging questions; the five articles it encompasses presents new methods for analysis of spatial transcriptomics data and examples of their application. Furthermore, it contains an introduction to current experimental and computational spatial transcriptomics techniques, as well as a section about data modeling.
In Article I, a probabilistic model for integration of single cell/nuclei and spatial transcriptomics data is presented. In short, the method allows for mixed signals – present in certain spatial transcriptomics platforms – to be decomposed into contributions from biologically relevant cell types or states derived from single cell/nuclei data. The model was implemented in code as a software, stereoscope, which is open source and publicly available. The same policy of open source and high transparency holds true for all software or code associated with this thesis. The stereoscope method has been used in several studies, one example being Article II, where we examined the spatial transcriptomics landscape of HER2-positive breast cancer patients. By integrating single cell and spatial transcriptomics data, several intriguing co-localization signals emerged. These signals allowed us to identify a signature for tertiary lymphoid structures and evidence of a trifold interaction involving: type I interferon signals, a T-cell subset, and a macrophage subset. However, the work also included other forms of explorative data analysis, such as unsupervised expression-based clustering. The clusters from this analysis, once annotated, exhibited high concordance with annotations provided by a pathologist and the tissue morphology. Taken together, this makes a compelling case for the use of spatial transcriptomics in the age of “digital pathology.” Finally, we also derived “core signatures” from the expression-based clusters, representing common expression profiles shared across the patients.
In Article III, we present a computational method, sepal, designed to identify genes with distinct spatial patterns, often referred to as “spatially variable genes.” The method uses Fick’s second law to simulate diffusion of transcripts in the tissue, measuring the time until convergence (a spatially uniform and homogeneous state). It then ranks the genes by their “diffusion time.” The assumption being that genes exhibiting strong spatial patterns will take longer time to converge compared to genes with no pattern, thus relating the diffusion time to the degree of spatial structure.
Article IV constitutes a study of the mouse liver using spatial transcriptomics. As before, we employed stereoscope for the purpose of single cell integration, but realized more tailored computational tools – towards the specific tissue – were required to address certain questions. Thus, we developed two computational methods, one devoted to vein type identity prediction, the other enabling a change of data representation. In essence, to predict the vein identities, we first assembled spatially weighted composite expression profiles from – to the vein – neighboring observations. Then, a logistic classifier was trained using the composite profiles. Once the model was trained, it could be used to assign vein type identities to ambiguous or unannotated veins. In the second method, the two-dimensional spatial data was recast into a more informative one-dimensional representation by treating gene expression as a function of an observation’s distance to its nearest vein structure.
The final work, Article V, expands the idea of recasting data into a more informative or helpful representation. More precisely, we present a method, eggplant, that allows the user to transfer spatial transcriptomics data from multiple sources to a common coordinate framework (CCF). Transfer of information to a CCF means spatial signals can be compared across conditions and time points, unlocking a plethora of valuable downstream analyses. For example, we perform spatiotemporal modeling of a synthetic system, and introduce the concept of “spatial arithmetics” to study local expression differences. With a growing corpus of spatial trancsriptomics data and ambitious international efforts like the Human Cell Atlas, we deem these sort of methods essential to leverage the data’s full potential.
Abstract [sv]
Transkriptomiktekniker, både i form av bulk, single cell/nuclei och spatiala metoder har tillåtit oss att utvidga vår kunskap om de biologiska system omkring likväl som inom oss. Under det senaste decenniet så har mängden innovationer inom området ökat på ett lavinartat sätt, och en uppsjö teknologiska avancemang har gjorts. Resultatet av detta är flertalet nya experimentella metoder. År 2009 så sågs isolering och karaktärisering av en enda cells transkriptom som ett stort framsteg, tio år senare (2019) så var studier med kartläggning av transkriptomet hos var och en av hundratusentals celler närmast osensationellt. Fältet som benämns spatial transcriptomics (sv. spatial transkriptomik) har genomgått en likvärdigt transformativ fas; det har gått från att kämpa med att uppskatta uttrycket av ett fåtal gener samtidigt till att kunna producera en spatial bild av samtliga gener i transkriptomet. Inte oväntat så närmar vi oss en inflektionspunkt där analys, istället för produktion av data, är den begränsande faktorn. Med standardiserade kommersiella produkter så kan högkvalitativ spatial transcriptomics data effektivt genereras i stor skala. Således har frågor kring analys av data börjat ersätta dem som berör dess framställning. Denna avhandling ämnar behandla vissa av dessa nya frågor; de fem artiklarna som den innefattar presenterar nya metoder för analys av spatial transcriptomics data samt exempel på deras applikationsområden. Avhandlingen ger även en överskådlig beskrivning av existerande metoder för produktion och analys av spatial transcriptomics data samt innehåller ett avsnitt om datamodellering.
I Artikel I så presenteras en probabilistisk modell för integration av single cell/nuclei och spatial transcriptomics data. Metoden möjliggör en dekomposering av de blandade signaler som är karaktäristiska för data från vissa spatial transcriptomics tekniker. Detta gör det möjligt att beskriva observationer utifrån deras sammansättning av biologiskt relevanta celltyper, definierade i single cell/nuclei data, istället för enbart genuttryck. Modellen implementerades även i kod som mjukvara och lanserades, med öppen källkod samt full tillgänglighet för allmänheten, under namnet stereoscope. Samma riktlinjer kring öppenhet och transparens gäller för all mjukvara och kod som är associerad med denna avhandling. Metoden, stereoscope, har använts i flertalet studier varav Artikel II är ett exempel. I detta arbete så undersökte vi det spatiala expressionslandskapet hos HER2- positiva bröstcancerpatienter. Genom att integra spatial och single cell data identifierade vi flertalet intressanta kolokaliseringssignaler. Från dessa signaler kunde vi definiera en signatur för tertiära lymfstrukturer samt se indikationer på en trevägsinteraktion mellan en interferon I signal, ett T-cell subset, och ett makrofag subset. Arbetet innefattade även ytterligare dataanalys, där vi nyttjade icke-vägledd (eng. unsupervised) klustring av genexpressionsdatan. De resulterande klustrena, efter annotering, stämde väl överens med morfologin och annoteringar som tillhandahållits från en patolog. Sammantaget så bekräftar dessa resultat värdet i att använda spatial transcriptomics för “digital patologi”. Slutligen, från genexpressionsklustren så kunde även “kärnsignaturer” identifieras, vilka representerar generella expressionsprofiler som delas av flertalet patienter.
I Artikel III så presenterar vi ytterligare en analysmetod, sepal, vilken är utvecklad för att identifiera gener med distinkta spatiala mönster, ofta refererade till som “spatialt variabla gener” (eng. spatially variable genes). Metoden använder först Ficks andra lag för att simulera diffusion av transkript i vävnaden, samtidigt som tiden till konvergens (ett spatialt homogent tillstånd) mäts. Sedan rankas varje gen baserat på dess “diffusionstid”. Metoden bygger på antagandet att gener som uppvisar spatiala mönster generellt tar längre tid att konvergera jämfört med gener utan struktur.
Artikel IV redogör för en studie av muslevern genom användandet av spatial transcriptomics. Vi använde stereoscope med syfte att integrera single cell data även i detta projekt, men upplevde ett behov av mer skräddarsydda metoder för analys av den specifika vävnaden. Således introducerade vi två nya analysmetoder, en avsedd för predicering av venidentitet, den andra för att representera expressionsdatan på ett mer informativt sätt. För att predicera venidentiteter så skapade vi sammansatta och spatialt viktade genexpressionsprofiler baserat på observationer från respektive vens närliggande område. Därefter tränade vi en logistisk klassificerare med syfte att kunna identifiera huruvida en ven tillhörde klassen “centralven” eller “portalven” givet dess sammansatta genexpressionsprofil. Efter att modellen tränats så kunde den användas för att tillskriva oannoterade eller svårannoterade vener en av de två nämnda identiteterna. I den andra metoden så förflyttar vi tvådimensionell spatial transcriptomics data till en mer informativ endimensionell representation, detta genom att behandla genexpressionsuttrycket som en funktion av avståndet till en observations närmaste venstruktur.
I det sista arbetet, Artikel V, så vidareutvecklar vi idéen om att förflytta data till en mer informativ eller användbar representation. Mer exakt så presenterar vi en metod, eggplant, som tillåter användaren att projicera data från flertalet prover eller experiment till ett gemensamt koordinatsystem (eng. common coordinate framework, kort CCF). Genom att förflytta information till ett CCF så kan spatiala signaler jämföras mellan olika tillstånd och tidpunkter, vilket är nödvändigt för flertalet värdefulla sekundäranalyser. Exempel på sådana analyser i vår studie är: spatiotemporal modellering av ett syntetiskt system, och “spatial aritmetik” applicerad på experimentellt inhämtad vävnadsdata. Med en växande mängd av spatial transcriptomics data och ambitiösa internationella initiativ som “the Human Cell Atlas”, så anser vi att liknande metoder är essentiella för att kunna nyttja datan till dess fulla potential
Place, publisher, year, edition, pages
Stockholm: Kungliga Tekniska högskolan, 2022. p. 61
Series
TRITA-CBH-FOU ; 2022:11
Keywords
spatial transcriptomics, machine learning, data analysis, RNA-seq, probabilistic, statistical, models
National Category
Bioinformatics and Computational Biology
Research subject
Biotechnology
Identifiers
urn:nbn:se:kth:diva-308942 (URN)978-91-8040-142-5 (ISBN)
Public defence
2022-03-18, Air&Fire, Tomtebodavägen 23A, via Zoom: https://kth-se.zoom.us/j/61241436735, Solna, 10:00 (English)
Opponent
Supervisors
Note
QC 2022-02-22
2022-02-222022-02-212025-02-07Bibliographically approved