Improving low dimensional representation fidelity of scRNA-seq data: Training an AutoEncoder to improve low dimensional representations of scRNA-seq Data compared to current standards
2024 (English)Independent thesis Basic level (degree of Bachelor), 10 credits / 15 HE credits
Student thesisAlternative title
Förbättring av trogen återgivning av scRNA-seq data i lågdimensionella rum (Swedish)
Abstract [en]
When studying gene expression in cells with single cell mRNA sequencing (scRNA-seq), the gene expression data is of a very high dimension. The amount of data that is being generated in a single scRNA-seq experiment to study gene expression is increasing fast, therefore the amount of computational resources needed for analyses is also increasing. Furthermore, it is difficult to get a meaningful overview of high dimensional data. To solve these issues, one often applies dimensionality reduction through Principal Component Analysis (PCA) that compresses the data into a low dimensional form. However, PCA relies on linear assumptions, and biological data is often not linear. In this thesis, an AutoEncoder was trained to see if it can perform better than PCA, as AutoEncoders does not rely on assumptions of linearity. A systematic search for the best performing architecture of the AutoEncoder was performed, and this model was then compared against PCA for dimensionality reduction from 500 dimensions to 100, 75, 50, 25, 10 and 5 dimensions. The AutoEncoder performed better than PCA for the higher dimensions (for which it was trained on during the architectural search), but worse in the lower dimensions. As such, the training of AutoEncoders has great potential to improve the low-dimensional fidelity of high-dimensional data, though it might be challenging to generalize a model that works for a large range of lower dimensional compression. Therefore, while AutoEncoders show promise, their application requires careful consideration and optimization.
Abstract [sv]
När man studerar genuttryck i celler med single cell mRNA-sekvensering (scRNA-seq) är genuttrycksdata av mycket hög dimensionalitet. Mängden data som genereras i varje scRNA-seq-experiment för att studera genuttryck ökar snabbt, vilket medför ett ökande behov av beräkningsresurser för analys. Vidare är det dessutom svårt att få en meningsfull överblick av högdimensionell data. För att lösa dessa problem tillämpar man ofta dimensionsreduktion genom Principal Component Analysis (PCA) som komprimerar data till en lågdimensionell form. PCA bygger dock på linjära antaganden, vilket ofta inte håller när man arbetar med biologisk data. I detta projekt tränades en AutoEncoder för att undersöka om den kan prestera bättre än PCA, eftersom AutoEncoders inte bygger på antaganden om linjäritet. En systematisk sökning efter den bäst presterande arkitekturen av AutoEncodern genomfördes, och denna modell jämfördes sedan med PCA för dimensionsreduktion från 500 dimensioner till 100, 75, 50, 25, 10 och 5 dimensioner. AutoEncodern presterade bättre än PCA för de högre dimensionerna (som den tränades på under arkitektursökningen), men sämre i de lägre dimensionerna. Därmed har träning av AutoEncoders stor potential att förbättra den lågdimensionella representationen av högdimensionell data, men det kan vara svårt att träna en generell AutoEncoder som fungerar för ett större omfång av lågdimensionella kompressioner. AutoEncoders visar lovande resultat, men deras tillämpning kräver noggrann övervägning och optimering.
Place, publisher, year, edition, pages
2024. , p. 19
Series
TRITA-EECS-EX ; 2024:365
Keywords [en]
Gene expression, scRNA-seq, high dimensional data, dimensionality reduction, AutoEncoders, Neural Networks, PCA
Keywords [sv]
Genuttryck, scRNA-seq, högdimensionell data, dimensionsreduktion, AutoEncoder, neurala nätverk, PCA
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-351120OAI: oai:DiVA.org:kth-351120DiVA, id: diva2:1886213
Supervisors
Examiners
2024-08-232024-07-302024-08-23Bibliographically approved