Representation Learning for Natural Language and Biological Data: Using contrastive learning to find a joint representation for single-cell RNA data and gene information text data
2024 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE credits
Student thesis
Abstract [en]
Recent advances in sequencing technologies such as Single-Cell RNA or Spatial transcriptomics have provided scientists with an abundant amount of data. These data contain valuable information on the changes and developments of a cell. However, analyzing this massive amount of data and extracting useful information is not a trivial task.
Machine Learning methods and in particular Deep Learning, have shown a spectacular performance in a wide variety of tasks. Inspired by their undeniable success, many researchers have started using these methods to analyze biological data. In this work, we aim to learn a joint representation space for single-cell RNA data and gene text data using contrastive learning. Having access to such representations can facilitate the exploration of a single-cell dataset by enabling the researchers to use text data to retrieve biological samples or zero-shot classification of biological samples. Furthermore, the trained model can act as a backbone for downstream tasks where text information can be utilized to either enhance the performance or bring interpretability. We will show that by using the CLIP loss function, our model has successfully learned a common space, enabling the model to correctly classify cell types and genes and also retrieve marker genes for each cell type with significant recall performance.
Abstract [sv]
De senaste framstegen inom sekvenseringstekniker som Single-Cell RNA och Spatial transkriptomik har gett forskare en riklig mängd data. Dessa data innehåller värdefull information om cellens förändringar och utveckling. Att analysera denna massiva mängd data och extrahera användbar information är dock ingen enkel uppgift.
Maskininlärningsmetoder, och särskilt djupinlärning, har visat spektakulär prestanda inom en mängd olika uppgifter. Inspirerade av deras obestridliga framgång har många forskare börjat använda dessa metoder för att analysera biologiska data. I detta arbete strävar vi efter att lära oss ett gemensamt representationsutrymme för single-cell RNA-data och genetextdata genom kontrastiv inlärning. Att ha tillgång till sådana representationer kan underlätta utforskningen av en single-cell-dataset genom att forskarna kan använda textdata för att hämta biologiska prover eller utföra zero-shot-klassificering av biologiska prover. Dessutom kan den tränade modellen fungera som en ryggrad för nedströmsuppgifter där textinformation kan användas för att antingen förbättra prestandan eller ge tolkbarhet. Vi kommer att visa att genom att använda CLIP-förlustfunktionen har vår modell framgångsrikt lärt sig ett gemensamt utrymme, vilket gör det möjligt för modellen att korrekt klassificera celltyper och gener samt hämta markörgener för varje celltyp med betydande återkallningsprestanda.
Place, publisher, year, edition, pages
Stockholm: KTH Royal Institute of Technology , 2024. , p. 52
Series
TRITA-EECS-EX ; 2024:524
Keywords [en]
Contrastive Learning, Deep Learning, Single-cell Transcriptomics, Natural Language
Keywords [sv]
Kontrastiv inlärning, Djupinlärning, Enkelcells-transkriptomik, Naturligt språk
National Category
Computer Sciences Computer Engineering
Identifiers
URN: urn:nbn:se:kth:diva-352605OAI: oai:DiVA.org:kth-352605DiVA, id: diva2:1894752
External cooperation
Wellcome Sanger Institute
Supervisors
Examiners
2024-10-012024-09-032024-10-01Bibliographically approved