kth.sePublications
Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Integrating spatial gene expression and breast tumour morphology via deep learning
KTH, School of Engineering Sciences in Chemistry, Biotechnology and Health (CBH), Gene Technology.
KTH, School of Engineering Sciences in Chemistry, Biotechnology and Health (CBH), Gene Technology.
Show others and affiliations
2020 (English)In: Nature Biomedical Engineering, E-ISSN 2157-846X, Vol. 4, no 8, p. 827-834Article in journal (Refereed) Published
Abstract [en]

Spatial transcriptomics allows for the measurement of RNA abundance at a high spatial resolution, making it possible to systematically link the morphology of cellular neighbourhoods and spatially localized gene expression. Here, we report the development of a deep learning algorithm for the prediction of local gene expression from haematoxylin-and-eosin-stained histopathology images using a new dataset of 30,612 spatially resolved gene expression data matched to histopathology images from 23 patients with breast cancer. We identified over 100 genes, including known breast cancer biomarkers of intratumoral heterogeneity and the co-localization of tumour growth and immune activation, the expression of which can be predicted from the histopathology images at a resolution of 100 µm. We also show that the algorithm generalizes well to The Cancer Genome Atlas and to other breast cancer gene expression datasets without the need for re-training. Predicting the spatially resolved transcriptome of a tissue directly from tissue images may enable image-based screening for molecular biomarkers with spatial variation. 

Place, publisher, year, edition, pages
Nature Research , 2020. Vol. 4, no 8, p. 827-834
Keywords [en]
Biomarkers, Diagnosis, Diseases, Gene expression, Learning algorithms, Medical imaging, Morphology, Tumors, Co-localizations, Gene Expression Data, High spatial resolution, Image-based screenings, Immune activation, Molecular biomarker, Spatial variations, Spatially resolved, Deep learning, transcriptome, tumor marker, Article, breast cancer, breast tissue, cancer tissue, clinical article, clinician, gene identification, histopathology, human, human tissue, protein localization, st net, transcriptomics, tumor growth
National Category
Medical Imaging
Identifiers
URN: urn:nbn:se:kth:diva-286524DOI: 10.1038/s41551-020-0578-xISI: 000542072600002PubMedID: 32572199Scopus ID: 2-s2.0-85086705289OAI: oai:DiVA.org:kth-286524DiVA, id: diva2:1510843
Note

QC 20201217

Available from: 2020-12-17 Created: 2020-12-17 Last updated: 2025-02-09Bibliographically approved
In thesis
1. Deconvolution of Spatial Gene Expression in Cancer
Open this publication in new window or tab >>Deconvolution of Spatial Gene Expression in Cancer
2022 (English)Doctoral thesis, comprehensive summary (Other academic)
Abstract [en]

Cancer is the second leading cause of death in the world, claiming nearly 10 million lives in 2020 alone. One of the main issues in anti-cancer treatment is the heterogeneity of the tumor microenvironment (TME). The TME consists of different cells that are critical for cancer development. Understanding the interactions and identity of these cells is vital to discovering the mechanisms for tumorigenesis. To fundamentally understand the development and mechanisms of the disease will help us in designing novel treatments moving forward. To study the TME, we need methods that both provide extensive information about the cellular profiles and their spatial location, in order to understand how they interact with each other. Single-cell RNA-seq (scRNA-seq) has provided extensive insights into the cellular composition of tumors. However, it requires dissociation of the cells and thus does not retain spatial information. There are several methods to study spatially resolved gene expression in tissues, but one that allows for untargeted and whole-transcriptome wide analysis is the in situ capturing method, Spatial transcriptomics (ST). Although this method allows us to know the location of the gene expression, the resolution is too low for single-cell analysis. With an initial capturing area of 100 μm, 3-30 cells are captured in each spot resulting in a mixture of cells giving rise to the gene expression. At this resolution, it is challenging to confidentially profile the cells, thus making it difficult to explore the cellular interactions fully. To fundamentally explore the TME, improvements need to be made.

In Paper I, we aimed to bridge the gap between ST and scRNA-seq by designing a new array with a capturing area of 2 μm. This new design increased the number of capture areas from 1007 to over 1.4 million and with over a 4000-fold improved resolution. We managed to get spatially resolved gene expression from mouse olfactory bulb (MOB) and breast tumor tissue at a sub-cellular resolution with this new design. Despite a low capture efficiency of around 1.3% per bead, we were able to identify differently expressed (DE) signatures specific to morphological layers, profile specific cell types and explore sub-cellular features. Paper II focuses on the information obtained from the widely available histological images. By integrating the spatial gene expression data from 23 different breast cancer patients with their morphological images via deep learning, we could predict gene expression on different samples solely from their histological images. This was further validated on external samples to ensure that it was applicable to other clinical data. In Paper III, we explored the biology of HER2-positive breast tumors by combining scRNA-seq with ST data from eight different HER2-positive patients. With this combinatorial approach, we studied the interactions of tumor-associated cell types and found tertiary lymphoid (TL)-like structures which have been shown to hold certain predictive power in treatment outcome. From this, we constructed a predictive model that could infer the presence of these TL-like structures across different tissue types and technical platforms. This was validated on external samples from breast cancer, rheumatoid arthritis and melanoma. Lastly, in Paper IV, we sought to improve upon the reproducibility and robustness of the method by automating the 10x Visium protocol on a robotic platform. To benchmark the protocol, we compared identical samples prepared both manually and with the automated approach and achieved high correlation scores of 0.995 and 0.990. By adapting the protocol on a Bravo Liquid Handling Platform, we were able to increase the throughput and robustness of the method and reduce hands-on time by over 80%.

Abstract [sv]

Cancer är världens näst vanligaste dödsorsak med nästan 10 miljoner dödsoffer under 2020. Ett av de största problemen med att behandla cancer är den höga graden av heterogenitet som finns inom mikromiljön av tumören. Tumörens mikromiljö består av flera olika celler som är avgörande för tumörens utveckling. Att veta identiteten på cellerna samt hur de interagerar är vitalt för att upptäcka de underliggande mekanismerna av cancerutveckling. Att fundamentalt förstå mekanismerna och utvecklingen av cancer ligger till grund för att vi ska kunna utveckla nya behandlingar i framtiden. För att kunna studera tumörens mikromiljö så krävs det metoder som både tillhandahåller omfattande information kring cellernas profil samt hur de är distribuerade jämtemot varandra för att förstå hur de interagerar. Med singel-cell RNA-sekvensering (scRNA-seq) så har man fått en omfattande bild av tumörers cellulära uppbyggnad men för att kunna utföra det krävs det att man dissocierar cellerna, vilket i sin tur gör att den spatiala informationen går förlorad. Det finns flera metoder som tillåter spatialt upplöst transkriptomik i vävnader men en som tillhandahåller opartisk analys av hela transkriptomet är en metod som blev döpt till Spatial Transcriptomics (ST). Även om metoden bevarar den spatiala koordinaten av genuttrycket så är upplösningen för låg för att kunna urskilja enskilda celler. Arean som fångar upp mRNAt är 100 µm, vilket fångar omkring 3–30 celler. Detta innebär att varje datapunkt innehåller genuttryck från flera celler vilket försvårar möjligheten att identifiera cellerna. För att förstå cellernas interaktioner och fundamentalt utforska tumörers mikromiljö så krävs det att metoden utvecklas. 

 

I Artikel I var vårt mål att föra ST närmare singel-cell analys genom att ändra den array som används för metoden. Den nya designen medförde en ökning av antalet areor där mRNAt kan fångas från 1007st till över 1,4 millioner och med en över 4000 gånger förbättrad upplösning. Vi kunde med denna array få spatialt upplöst genuttryck från vävnader av mushjärna och brösttumör med en upplösning på 2 µm. Trots en låg verkningsgrad på omkring 1,3% så lyckades vi identifiera skilda genuttryck som var specifika för vissa morfologiska regioner, specifika celltyper samt utforska egenskaper på en subcellulär nivå. Artikel II fokuserar på den information som kan fås genom histologiska bilder vilka är lättillgängliga. Genom att integrera det spatiala genuttrycket från 23 patienter med de tillhörande histologiska bilderna genom djup maskininlärning så kunde vi förutspå genuttrycket på andra prover endast baserat på deras histologiska bilder. Detta validerades på externa prover för att säkerhetsställa att de var applicerbart på kliniska prover. I Artikel III så utforskade vi biologin av HER2-positiva brösttumörer genom att kombinera scRNA-seq data med data från åtta olika HER2-positiva patienter genererat via ST. Med att kombinera de två så kunde vi utforska interaktioner mellan celler i tumören och fann tertiära lymfoid (TL)-liknande strukturer. Det har visats att dessa TL-strukturer är till viss del en förutsägande faktor när det gäller behandling. I och med detta så tog vi fram en modell för att hitta dessa TL-liknande strukturer i data från andra vävnader samt data genererat från en annan plattform. Detta validerades på externa prover från bröstcancer, reumatoid artrit och malignt melanom. Slutligen i Artikel IV så var vårt mål att förbättra reproducerbarheten samt robustheten av metoden genom att tillämpa den på en automatisk plattform. För att säkerhetsställa prestandan av det automatiserade protokollet så jämförde vi identiska prover förberedda både manuellt och automatiserat. Från detta fick vi höga korrelationskoefficienter på 0,995 och 0,990. Genom att anpassa protokollet på den plattform som heter ”Bravo Liquid Handling Platform” så lyckades vi öka robustheten och effektiviteten av metoden samt reducera den praktiska tiden i laboratoriet med över 80%.

Place, publisher, year, edition, pages
KTH Royal Institute of Technology, 2022. p. 59
Series
TRITA-CBH-FOU ; 2022:20
Keywords
Spatial transcriptomics, Gene expression, Cancer
National Category
Natural Sciences
Research subject
Biotechnology
Identifiers
urn:nbn:se:kth:diva-309185 (URN)978-91-8040-157-9 (ISBN)
Public defence
2022-03-25, Air and Fire, Tomtebodavägen 23A, Solna, 09:00 (English)
Opponent
Supervisors
Note

QC 2022-02-22

Available from: 2022-02-22 Created: 2022-02-22 Last updated: 2022-06-25Bibliographically approved
2. Computational Models of Spatial Transcriptomes
Open this publication in new window or tab >>Computational Models of Spatial Transcriptomes
2024 (English)Doctoral thesis, comprehensive summary (Other academic)
Abstract [en]

Spatial biology is a rapidly growing field that has seen tremendous progress over the last decade. We are now able to measure how the morphology, genome, transcriptome, and proteome of a tissue vary across space. Datasets generated by spatial technologies reflect the complexity of the systems they measure: They are multi-modal, high-dimensional, and layer an intricate web of dependencies between biological compartments at different length scales. To add to this complexity, measurements are often sparse and noisy, obfuscating the underlying biological signal and making the data difficult to interpret. In this thesis, we describe how data from spatial biology experiments can be analyzed with methods from deep learning and generative modeling to accelerate biological discovery. The thesis is divided into two parts. The first part provides an introduction to the fields of deep learning and spatial biology, and how the two can be combined to model spatial biology data. The second part consists of four papers describing methods that we have developed for this purpose. Paper I presents a method for inferring spatial gene expression from hematoxylin and eosin stains. The proposed method offers a data-driven approach to analyzing histopathology images without relying on expert annotations and could be a valuable tool for cancer screening and diagnosis in the clinics. Paper II introduces a method for jointly modeling spatial gene expression with histology images. We show that the method can predict super-resolved gene expression and transcriptionally characterize small-scale anatomical structures. Paper III proposes a method for learning flexible Markov kernels to model continuous and discrete data distributions. We demonstrate the method on various image synthesis tasks, including unconditional image generation and inpainting. Paper IV leverages the techniques introduced in Paper III to integrate data from different spatial biology experiments. The proposed method can be used for data imputation, super resolution, and cross-modality data transfer.

Abstract [sv]

Spatial biologi är ett snabbt växande forskningsområde som har sett en hög utvecklingstakt under det senaste decenniet. Vi kan idag mäta hur en vävnads morfologi, genom, transkriptom och proteom varierar i rummet. Dataset skapade av spatiala teknologier återspeglar komplexiteten i de system de mäter: De är multimodala, högdimensionella och är uppbyggda av ett intrikat nätverk av beroenden mellan biologiska strukturer som existerar på olika längdskalor. Som om denna komplexitet inte var nog, är mätningarna ofta både glesa och brusiga, vilket försvårar tolkningen av den underliggande biologiska signalen. I denna avhandling beskriver vi hur data från experiment inom spatial biologi kan analyseras med hjälp av djupinlärning och generativ modellering för att accelerera biologiska upptäckter. Avhandlingen är uppdelad i två delar. Den första delen ger en introduktion till fälten djupinlärning och spatial biologi, och hur dessa kan kombineras för att modellera data inom spatial biologi. Den andra delen består av fyra artiklar som beskriver metoder som vi har utvecklat för detta ändamål. Artikel I presenterar en metod för att skatta spatialt genuttryck från hematoxylin-eosin-färgningar. Den föreslagna metoden erbjuder ett datadrivet tillvägagångssätt för att analysera histopatologi-bilder utan användning av expertannoteringar och kan utgöra ett värdefullt verktyg för cancerscreening och diagnos i kliniken. Artikel II introducerar en metod för sammodellering av spatialt genuttryck och histologibilder. Vi visar att metoden kan användas för att predicera superupplöst genuttryck och transkriptionellt karakterisera småskaliga anatomiska strukturer. Artikel III beskriver en metod för modellering av kontinuerliga och diskreta datafördelningar med flexibla Markovkärnor. Vi demonstrerar metoden på olika bildgenereringsuppgifter, inklusive obetingad datagenerering och inpainting. Artikel IV utnyttjar teknikerna från Artikel III för att integrera data från olika experiment inom spatial biologi. Den föreslagna metoden kan användas för imputering, superupplösning och dataöverföring mellan olika modaliteter.

Place, publisher, year, edition, pages
KTH Royal Institute of Technology, 2024. p. 66
Series
TRITA-CBH-FOU ; 2024:1
National Category
Bioinformatics (Computational Biology)
Research subject
Biotechnology
Identifiers
urn:nbn:se:kth:diva-341968 (URN)978-91-8040-820-2 (ISBN)
Public defence
2024-01-31, Air & Fire, Tomtebodavägen 23A, via Zoom: https://kth-se.zoom.us/j/68950542171, Solna, 10:00 (English)
Opponent
Supervisors
Note

QC 2024-01-09

Available from: 2024-01-09 Created: 2024-01-08 Last updated: 2024-01-30Bibliographically approved

Open Access in DiVA

No full text in DiVA

Other links

Publisher's full textPubMedScopus

Authority records

Bergenstråhle, LudvigStenbeck, LinneaAndersson, AlmaMaaskola, JonasLundeberg, Joakim

Search in DiVA

By author/editor
Bergenstråhle, LudvigStenbeck, LinneaAndersson, AlmaMaaskola, JonasLundeberg, Joakim
By organisation
Gene TechnologyScience for Life Laboratory, SciLifeLab
In the same journal
Nature Biomedical Engineering
Medical Imaging

Search outside of DiVA

GoogleGoogle Scholar

doi
pubmed
urn-nbn

Altmetric score

doi
pubmed
urn-nbn
Total: 1924 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf