Inferring Gene regulatory networks using Graph Neural Networks
2023 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE credits
Student thesis
Abstract [sv]
Inom beräkningsbiologin är det snabbt på väg att bli allt vanligare att ta fram genetiska regleringsnätverk (GRN). På grund av storleken på de undersökta nätverken använder många forskare maskininlärning för att härleda GRN från genuttrycksdata, vanligtvis från RNA-seq. Noggrannheten hos sådana moderna metoder kan dock fortfarande förbättras, särskilt när det gäller tidsseriemodellen. I den här forskningen föreslås två tidsseriemodeller för GRN-inferens: GATv2-regressionsmodell och GATv2-länkprediktionsmodell. Den förstnämnda modellen är baserad på idén om en konventionell GRN-inferensmodell som regresserar målgenuttrycksdata med hjälp av data om kandidatkontrollgener. Den senare modellen bygger på den vanliga länkprediktionsmetoden med hjälp av grafiska neurala nätverk som utför binariseringen av om det finns kanter mellan specifika genknutpunkter. GATv2-regressionsmodellen presterar bra i en regressionsuppgift. Noggrannheten för GRN-inferensen är dock låg och var nästan densamma som en slumpmässig utgång. Å andra sidan presterar GATv2-modellen för prediktion av länkar bra om träningsdata är tillräckligt korrekta. Att härleda genreglerande relationer med hög uppskattningsnoggrannhet är dock fortfarande en utmaning inom området GRN-inferens även för partiella genreglerande relationer. Av den anledningen har modellens noggrannhet minskat betydligt på grund av behovet av större noggrannhet i träningsdata.
Abstract [en]
In computational biology, inferring Gene regulatory networks (GRN) is rapidly expanding. Due to the size of the examined networks, many researchers use machine learning to infer GRN from gene expression data, typically from RNA-seq. However, the accuracy of such state-of-the-art methods still has room for improvement, especially for the time-series model. This research proposes two timeseries GRN inference models: GATv2 regression model and GATv2 link prediction model. The former model is based on the idea of conventional GRN inference model that regresses the target gene expression data by using candidate control gene data. The latter model is based on the usual link prediction method by Graph neural networks that performs the binarization task of whether edges exist between specific gene nodes. The GATv2 regression model performs well in a regression task. However, the accuracy of GRN inference is low, and it was almost the same as a random output. On the other hand, the GATv2 link prediction model performs well if the training data is correct enough. However, inferring gene regulatory relationships with high estimation accuracy is still a challenge in the field of GRN inference even for partial gene regulatory relationships. For that reason, the accuracy of the model has significantly decreased because of the need for more accuracy in the training data.
Place, publisher, year, edition, pages
2023.
Series
TRITA-CBH-GRU ; 2023:043
Keywords [en]
Graph Attention Network, Gene regulatory Network, Transcription, Data Science, Machine learning
Keywords [sv]
Genreglering, transkription, dataanalys, Inferens, maskininlärning
National Category
Biochemistry Molecular Biology
Identifiers
URN: urn:nbn:se:kth:diva-324978OAI: oai:DiVA.org:kth-324978DiVA, id: diva2:1745401
Subject / course
Biotechnology
Educational program
Master of Science in Engineering - Biotechnology
Supervisors
Examiners
2023-03-232023-03-232025-02-20