kth.sePublications
Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Spatial deconvolution of HER2-positive breast cancer delineates tumor-associated cell type interactions
KTH, School of Engineering Sciences in Chemistry, Biotechnology and Health (CBH), Gene Technology. KTH, Centres, Science for Life Laboratory, SciLifeLab.ORCID iD: 0000-0002-4773-9975
KTH, School of Engineering Sciences in Chemistry, Biotechnology and Health (CBH), Gene Technology. KTH, Centres, Science for Life Laboratory, SciLifeLab.ORCID iD: 0000-0003-4209-2911
KTH, School of Engineering Sciences in Chemistry, Biotechnology and Health (CBH), Gene Technology. KTH, Centres, Science for Life Laboratory, SciLifeLab.ORCID iD: 0000-0002-0210-7886
KTH, Centres, Science for Life Laboratory, SciLifeLab. KTH, School of Engineering Sciences in Chemistry, Biotechnology and Health (CBH), Gene Technology. Hubrecht Inst KNAW Royal Netherlands Acad Arts &, Utrecht, Netherlands.;Univ Med Ctr Utrecht, Canc Genom Netherlands, Utrecht, Netherlands..ORCID iD: 0000-0001-8728-3709
Show others and affiliations
2021 (English)In: Nature Communications, E-ISSN 2041-1723, Vol. 12, no 1, article id 6012Article in journal (Refereed) Published
Abstract [en]

In the past decades, transcriptomic studies have revolutionized cancer treatment and diagnosis. However, tumor sequencing strategies typically result in loss of spatial information, critical to understand cell interactions and their functional relevance. To address this, we investigate spatial gene expression in HER2-positive breast tumors using Spatial Transcriptomics technology. We show that expression-based clustering enables data-driven tumor annotation and assessment of intra- and interpatient heterogeneity; from which we discover shared gene signatures for immune and tumor processes. By integration with single cell data, we spatially map tumor-associated cell types to find tertiary lymphoid-like structures, and a type I interferon response overlapping with regions of T-cell and macrophage subset colocalization. We construct a predictive model to infer presence of tertiary lymphoid-like structures, applicable across tissue types and technical platforms. Taken together, we combine different data modalities to define a high resolution map of cellular interactions in tumors and provide tools generalizing across tissues and diseases. While transcriptomics have enhanced our understanding for cancer, spatial transcriptomics enable the characterisation of cellular interactions. Here, the authors integrate single cell data with spatial information for HER2 + tumours and develop tools for the prediction of interactions between tumour-infiltrating cells.

Place, publisher, year, edition, pages
Springer Nature , 2021. Vol. 12, no 1, article id 6012
National Category
Cancer and Oncology
Identifiers
URN: urn:nbn:se:kth:diva-304218DOI: 10.1038/s41467-021-26271-2ISI: 000707430400001PubMedID: 34650042Scopus ID: 2-s2.0-85117381388OAI: oai:DiVA.org:kth-304218DiVA, id: diva2:1608332
Note

QC 20211103

Available from: 2021-11-03 Created: 2021-11-03 Last updated: 2023-03-28Bibliographically approved
In thesis
1. Computational methods for analysis of spatial transcriptomics data: An exploration of the spatial gene expression landscape
Open this publication in new window or tab >>Computational methods for analysis of spatial transcriptomics data: An exploration of the spatial gene expression landscape
2022 (English)Doctoral thesis, comprehensive summary (Other academic)
Abstract [en]

Transcriptomics techniques, whether in the form of bulk, single cell/nuclei, or spatial methods have fueled a substantial expansion of our knowledge about the biological systems within and around us. In addition, the rate of innovation has accelerated over the last decade, resulting in a multitude of technological advances and new methods for generation of transcriptomics data. In 2009, isolating and characterizing the transcriptome of a single cell was seen as a major achievement, ten years later, in 2019, studies surveying a hundred thousand cells were commonplace. The field of spatial transcriptomics went through an equally transformative phase; from struggling with simultaneous characterization of a few targets, to seamlessly provide spatially resolved maps of the full transcriptome. Inevitably, we’re approaching an inflection point where the generation of data is no longer the bottleneck, but rather its analysis. Alas, with standardized commercial products, high-quality spatial transcriptomics data can now be generated en masse. Hence, questions about data analysis have started to replace those of data generation. The work in this thesis seeks to address some of these emerging questions; the five articles it encompasses presents new methods for analysis of spatial transcriptomics data and examples of their application. Furthermore, it contains an introduction to current experimental and computational spatial transcriptomics techniques, as well as a section about data modeling. 

In Article I, a probabilistic model for integration of single cell/nuclei and spatial transcriptomics data is presented. In short, the method allows for mixed signals – present in certain spatial transcriptomics platforms – to be decomposed into contributions from biologically relevant cell types or states derived from single cell/nuclei data. The model was implemented in code as a software, stereoscope, which is open source and publicly available. The same policy of open source and high transparency holds true for all software or code associated with this thesis. The stereoscope method has been used in several studies, one example being Article II, where we examined the spatial transcriptomics landscape of HER2-positive breast cancer patients. By integrating single cell and spatial transcriptomics data, several intriguing co-localization signals emerged. These signals allowed us to identify a signature for tertiary lymphoid structures and evidence of a trifold interaction involving: type I interferon signals, a T-cell subset, and a macrophage subset. However, the work also included other forms of explorative data analysis, such as unsupervised expression-based clustering. The clusters from this analysis, once annotated, exhibited high concordance with annotations provided by a pathologist and the tissue morphology. Taken together, this makes a compelling case for the use of spatial transcriptomics in the age of “digital pathology.” Finally, we also derived “core signatures” from the expression-based clusters, representing common expression profiles shared across the patients.

In Article III, we present a computational method, sepal, designed to identify genes with distinct spatial patterns, often referred to as “spatially variable genes.” The method uses Fick’s second law to simulate diffusion of transcripts in the tissue, measuring the time until convergence (a spatially uniform and homogeneous state). It then ranks the genes by their “diffusion time.” The assumption being that genes exhibiting strong spatial patterns will take longer time to converge compared to genes with no pattern, thus relating the diffusion time to the degree of spatial structure. 

Article IV constitutes a study of the mouse liver using spatial transcriptomics. As before, we employed stereoscope for the purpose of single cell integration, but realized more tailored computational tools – towards the specific tissue – were required to address certain questions. Thus, we developed two computational methods, one devoted to vein type identity prediction, the other enabling a change of data representation. In essence, to predict the vein identities, we first assembled spatially weighted composite expression profiles from – to the vein – neighboring observations. Then, a logistic classifier was trained using the composite profiles. Once the model was trained, it could be used to assign vein type identities to ambiguous or unannotated veins. In the second method, the two-dimensional spatial data was recast into a more informative one-dimensional representation by treating gene expression as a function of an observation’s distance to its nearest vein structure.

The final work, Article V, expands the idea of recasting data into a more informative or helpful representation. More precisely, we present a method, eggplant, that allows the user to transfer spatial transcriptomics data from multiple sources to a common coordinate framework (CCF). Transfer of information to a CCF means spatial signals can be compared across conditions and time points, unlocking a plethora of valuable downstream analyses. For example, we perform spatiotemporal modeling of a synthetic system, and introduce the concept of “spatial arithmetics” to study local expression differences. With a growing corpus of spatial trancsriptomics data and ambitious international efforts like the Human Cell Atlas, we deem these sort of methods essential to leverage the data’s full potential.

Abstract [sv]

Transkriptomiktekniker, både i form av bulk, single cell/nuclei och spatiala metoder har tillåtit oss att utvidga vår kunskap om de biologiska system omkring likväl som inom oss. Under det senaste decenniet så har mängden innovationer inom området ökat på ett lavinartat sätt, och en uppsjö teknologiska avancemang har gjorts. Resultatet av detta är flertalet nya experimentella metoder. År 2009 så sågs isolering och karaktärisering av en enda cells transkriptom som ett stort framsteg, tio år senare (2019) så var studier med kartläggning av transkriptomet hos var och en av hundratusentals celler närmast osensationellt. Fältet som benämns spatial transcriptomics (sv. spatial transkriptomik) har genomgått en likvärdigt transformativ fas; det har gått från att kämpa med att uppskatta uttrycket av ett fåtal gener samtidigt till att kunna producera en spatial bild av samtliga gener i transkriptomet. Inte oväntat så närmar vi oss en inflektionspunkt där analys, istället för produktion av data, är den begränsande faktorn. Med standardiserade kommersiella produkter så kan högkvalitativ spatial transcriptomics data effektivt genereras i stor skala. Således har frågor kring analys av data börjat ersätta dem som berör dess framställning. Denna avhandling ämnar behandla vissa av dessa nya frågor; de fem artiklarna som den innefattar presenterar nya metoder för analys av spatial transcriptomics data samt exempel på deras applikationsområden. Avhandlingen ger även en överskådlig beskrivning av existerande metoder för produktion och analys av spatial transcriptomics data samt innehåller ett avsnitt om datamodellering.

I Artikel I så presenteras en probabilistisk modell för integration av single cell/nuclei och spatial transcriptomics data. Metoden möjliggör en dekomposering av de blandade signaler som är karaktäristiska för data från vissa spatial transcriptomics tekniker. Detta gör det möjligt att beskriva observationer utifrån deras sammansättning av biologiskt relevanta celltyper, definierade i single cell/nuclei data, istället för enbart genuttryck. Modellen implementerades även i kod som mjukvara och lanserades, med öppen källkod samt full tillgänglighet för allmänheten, under namnet stereoscope. Samma riktlinjer kring öppenhet och transparens gäller för all mjukvara och kod som är associerad med denna avhandling. Metoden, stereoscope, har använts i flertalet studier varav Artikel II är ett exempel. I detta arbete så undersökte vi det spatiala expressionslandskapet hos HER2- positiva bröstcancerpatienter. Genom att integra spatial och single cell data identifierade vi flertalet intressanta kolokaliseringssignaler. Från dessa signaler kunde vi definiera en signatur för tertiära lymfstrukturer samt se indikationer på en trevägsinteraktion mellan en interferon I signal, ett T-cell subset, och ett makrofag subset. Arbetet innefattade även ytterligare dataanalys, där vi nyttjade icke-vägledd (eng. unsupervised) klustring av genexpressionsdatan. De resulterande klustrena, efter annotering, stämde väl överens med morfologin och annoteringar som tillhandahållits från en patolog. Sammantaget så bekräftar dessa resultat värdet i att använda spatial transcriptomics för “digital patologi”. Slutligen, från genexpressionsklustren så kunde även “kärnsignaturer” identifieras, vilka representerar generella expressionsprofiler som delas av flertalet patienter.

  I Artikel III så presenterar vi ytterligare en analysmetod, sepal, vilken är utvecklad för att identifiera gener med distinkta spatiala mönster, ofta refererade till som “spatialt variabla gener” (eng. spatially variable genes). Metoden använder först Ficks andra lag för att simulera diffusion av transkript i vävnaden, samtidigt som tiden till konvergens (ett spatialt homogent tillstånd) mäts. Sedan rankas varje gen baserat på dess “diffusionstid”. Metoden bygger på antagandet att gener som uppvisar spatiala mönster generellt tar längre tid att konvergera jämfört med gener utan struktur.

Artikel IV redogör för en studie av muslevern genom användandet av spatial transcriptomics. Vi använde stereoscope med syfte att integrera single cell data även i detta projekt, men upplevde ett behov av mer skräddarsydda metoder för analys av den specifika vävnaden. Således introducerade vi två nya analysmetoder, en avsedd för predicering av venidentitet, den andra för att representera expressionsdatan på ett mer informativt sätt. För att predicera venidentiteter så skapade vi sammansatta och spatialt viktade genexpressionsprofiler baserat på observationer från respektive vens närliggande område. Därefter tränade vi en logistisk klassificerare med syfte att kunna identifiera huruvida en ven tillhörde klassen “centralven” eller “portalven” givet dess sammansatta genexpressionsprofil. Efter att modellen tränats så kunde den användas för att tillskriva oannoterade eller svårannoterade vener en av de två nämnda identiteterna. I den andra metoden så förflyttar vi tvådimensionell spatial transcriptomics data till en mer informativ endimensionell representation, detta genom att behandla genexpressionsuttrycket som en funktion av avståndet till en observations närmaste venstruktur.

I det sista arbetet, Artikel V, så vidareutvecklar vi idéen om att förflytta data till en mer informativ eller användbar representation. Mer exakt så presenterar vi en metod, eggplant, som tillåter användaren att projicera data från flertalet prover eller experiment till ett gemensamt koordinatsystem (eng. common coordinate framework, kort CCF). Genom att förflytta information till ett CCF så kan spatiala signaler jämföras mellan olika tillstånd och tidpunkter, vilket är nödvändigt för flertalet värdefulla sekundäranalyser. Exempel på sådana analyser i vår studie är: spatiotemporal modellering av ett syntetiskt system, och “spatial aritmetik” applicerad på experimentellt inhämtad vävnadsdata. Med en växande mängd av spatial transcriptomics data och ambitiösa internationella initiativ som “the Human Cell Atlas”, så anser vi att liknande metoder är essentiella för att kunna nyttja datan till dess fulla potential

Place, publisher, year, edition, pages
Stockholm: Kungliga Tekniska högskolan, 2022. p. 61
Series
TRITA-CBH-FOU ; 2022:11
Keywords
spatial transcriptomics, machine learning, data analysis, RNA-seq, probabilistic, statistical, models
National Category
Bioinformatics and Computational Biology
Research subject
Biotechnology
Identifiers
urn:nbn:se:kth:diva-308942 (URN)978-91-8040-142-5 (ISBN)
Public defence
2022-03-18, Air&Fire, Tomtebodavägen 23A, via Zoom: https://kth-se.zoom.us/j/61241436735, Solna, 10:00 (English)
Opponent
Supervisors
Note

QC 2022-02-22

Available from: 2022-02-22 Created: 2022-02-21 Last updated: 2025-02-07Bibliographically approved
2. Deconvolution of Spatial Gene Expression in Cancer
Open this publication in new window or tab >>Deconvolution of Spatial Gene Expression in Cancer
2022 (English)Doctoral thesis, comprehensive summary (Other academic)
Abstract [en]

Cancer is the second leading cause of death in the world, claiming nearly 10 million lives in 2020 alone. One of the main issues in anti-cancer treatment is the heterogeneity of the tumor microenvironment (TME). The TME consists of different cells that are critical for cancer development. Understanding the interactions and identity of these cells is vital to discovering the mechanisms for tumorigenesis. To fundamentally understand the development and mechanisms of the disease will help us in designing novel treatments moving forward. To study the TME, we need methods that both provide extensive information about the cellular profiles and their spatial location, in order to understand how they interact with each other. Single-cell RNA-seq (scRNA-seq) has provided extensive insights into the cellular composition of tumors. However, it requires dissociation of the cells and thus does not retain spatial information. There are several methods to study spatially resolved gene expression in tissues, but one that allows for untargeted and whole-transcriptome wide analysis is the in situ capturing method, Spatial transcriptomics (ST). Although this method allows us to know the location of the gene expression, the resolution is too low for single-cell analysis. With an initial capturing area of 100 μm, 3-30 cells are captured in each spot resulting in a mixture of cells giving rise to the gene expression. At this resolution, it is challenging to confidentially profile the cells, thus making it difficult to explore the cellular interactions fully. To fundamentally explore the TME, improvements need to be made.

In Paper I, we aimed to bridge the gap between ST and scRNA-seq by designing a new array with a capturing area of 2 μm. This new design increased the number of capture areas from 1007 to over 1.4 million and with over a 4000-fold improved resolution. We managed to get spatially resolved gene expression from mouse olfactory bulb (MOB) and breast tumor tissue at a sub-cellular resolution with this new design. Despite a low capture efficiency of around 1.3% per bead, we were able to identify differently expressed (DE) signatures specific to morphological layers, profile specific cell types and explore sub-cellular features. Paper II focuses on the information obtained from the widely available histological images. By integrating the spatial gene expression data from 23 different breast cancer patients with their morphological images via deep learning, we could predict gene expression on different samples solely from their histological images. This was further validated on external samples to ensure that it was applicable to other clinical data. In Paper III, we explored the biology of HER2-positive breast tumors by combining scRNA-seq with ST data from eight different HER2-positive patients. With this combinatorial approach, we studied the interactions of tumor-associated cell types and found tertiary lymphoid (TL)-like structures which have been shown to hold certain predictive power in treatment outcome. From this, we constructed a predictive model that could infer the presence of these TL-like structures across different tissue types and technical platforms. This was validated on external samples from breast cancer, rheumatoid arthritis and melanoma. Lastly, in Paper IV, we sought to improve upon the reproducibility and robustness of the method by automating the 10x Visium protocol on a robotic platform. To benchmark the protocol, we compared identical samples prepared both manually and with the automated approach and achieved high correlation scores of 0.995 and 0.990. By adapting the protocol on a Bravo Liquid Handling Platform, we were able to increase the throughput and robustness of the method and reduce hands-on time by over 80%.

Abstract [sv]

Cancer är världens näst vanligaste dödsorsak med nästan 10 miljoner dödsoffer under 2020. Ett av de största problemen med att behandla cancer är den höga graden av heterogenitet som finns inom mikromiljön av tumören. Tumörens mikromiljö består av flera olika celler som är avgörande för tumörens utveckling. Att veta identiteten på cellerna samt hur de interagerar är vitalt för att upptäcka de underliggande mekanismerna av cancerutveckling. Att fundamentalt förstå mekanismerna och utvecklingen av cancer ligger till grund för att vi ska kunna utveckla nya behandlingar i framtiden. För att kunna studera tumörens mikromiljö så krävs det metoder som både tillhandahåller omfattande information kring cellernas profil samt hur de är distribuerade jämtemot varandra för att förstå hur de interagerar. Med singel-cell RNA-sekvensering (scRNA-seq) så har man fått en omfattande bild av tumörers cellulära uppbyggnad men för att kunna utföra det krävs det att man dissocierar cellerna, vilket i sin tur gör att den spatiala informationen går förlorad. Det finns flera metoder som tillåter spatialt upplöst transkriptomik i vävnader men en som tillhandahåller opartisk analys av hela transkriptomet är en metod som blev döpt till Spatial Transcriptomics (ST). Även om metoden bevarar den spatiala koordinaten av genuttrycket så är upplösningen för låg för att kunna urskilja enskilda celler. Arean som fångar upp mRNAt är 100 µm, vilket fångar omkring 3–30 celler. Detta innebär att varje datapunkt innehåller genuttryck från flera celler vilket försvårar möjligheten att identifiera cellerna. För att förstå cellernas interaktioner och fundamentalt utforska tumörers mikromiljö så krävs det att metoden utvecklas. 

 

I Artikel I var vårt mål att föra ST närmare singel-cell analys genom att ändra den array som används för metoden. Den nya designen medförde en ökning av antalet areor där mRNAt kan fångas från 1007st till över 1,4 millioner och med en över 4000 gånger förbättrad upplösning. Vi kunde med denna array få spatialt upplöst genuttryck från vävnader av mushjärna och brösttumör med en upplösning på 2 µm. Trots en låg verkningsgrad på omkring 1,3% så lyckades vi identifiera skilda genuttryck som var specifika för vissa morfologiska regioner, specifika celltyper samt utforska egenskaper på en subcellulär nivå. Artikel II fokuserar på den information som kan fås genom histologiska bilder vilka är lättillgängliga. Genom att integrera det spatiala genuttrycket från 23 patienter med de tillhörande histologiska bilderna genom djup maskininlärning så kunde vi förutspå genuttrycket på andra prover endast baserat på deras histologiska bilder. Detta validerades på externa prover för att säkerhetsställa att de var applicerbart på kliniska prover. I Artikel III så utforskade vi biologin av HER2-positiva brösttumörer genom att kombinera scRNA-seq data med data från åtta olika HER2-positiva patienter genererat via ST. Med att kombinera de två så kunde vi utforska interaktioner mellan celler i tumören och fann tertiära lymfoid (TL)-liknande strukturer. Det har visats att dessa TL-strukturer är till viss del en förutsägande faktor när det gäller behandling. I och med detta så tog vi fram en modell för att hitta dessa TL-liknande strukturer i data från andra vävnader samt data genererat från en annan plattform. Detta validerades på externa prover från bröstcancer, reumatoid artrit och malignt melanom. Slutligen i Artikel IV så var vårt mål att förbättra reproducerbarheten samt robustheten av metoden genom att tillämpa den på en automatisk plattform. För att säkerhetsställa prestandan av det automatiserade protokollet så jämförde vi identiska prover förberedda både manuellt och automatiserat. Från detta fick vi höga korrelationskoefficienter på 0,995 och 0,990. Genom att anpassa protokollet på den plattform som heter ”Bravo Liquid Handling Platform” så lyckades vi öka robustheten och effektiviteten av metoden samt reducera den praktiska tiden i laboratoriet med över 80%.

Place, publisher, year, edition, pages
KTH Royal Institute of Technology, 2022. p. 59
Series
TRITA-CBH-FOU ; 2022:20
Keywords
Spatial transcriptomics, Gene expression, Cancer
National Category
Natural Sciences
Research subject
Biotechnology
Identifiers
urn:nbn:se:kth:diva-309185 (URN)978-91-8040-157-9 (ISBN)
Public defence
2022-03-25, Air and Fire, Tomtebodavägen 23A, Solna, 09:00 (English)
Opponent
Supervisors
Note

QC 2022-02-22

Available from: 2022-02-22 Created: 2022-02-22 Last updated: 2022-06-25Bibliographically approved

Open Access in DiVA

No full text in DiVA

Other links

Publisher's full textPubMedScopus

Authority records

Andersson, AlmaLarsson, LudvigStenbeck, LinneaSalmén, FredrikLundeberg, Joakim

Search in DiVA

By author/editor
Andersson, AlmaLarsson, LudvigStenbeck, LinneaSalmén, FredrikEhinger, AnnaSwarbrick, AlexLundeberg, Joakim
By organisation
Gene TechnologyScience for Life Laboratory, SciLifeLab
In the same journal
Nature Communications
Cancer and Oncology

Search outside of DiVA

GoogleGoogle Scholar

doi
pubmed
urn-nbn

Altmetric score

doi
pubmed
urn-nbn
Total: 331 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf