Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • harvard1
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Application of Machine Learning on a Genome-Wide Association Studies Dataset
KTH, School of Engineering Sciences (SCI), Mathematics (Dept.), Numerical Analysis, NA.
2015 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesisAlternative title
Applicering av maskininlärning på ett genome-wide association study dataset (Swedish)
Abstract [en]

The number of individuals affected by type 2 diabetes is rapidly increasing. The goal of this thesis is to investigate if type 2 diabetes can be predicted more accurately from genome-wide association data using machine learning methods opposed to traditional statistical methods. A variable selection process using random forest has been performed and the variables in the genome, called Single Nucleotide Polymorphisms (SNPs), showing the highest importance for the prediction of type 2 diabetes have been identified. It has then been considered if including these SNPs in the models over only using clinical variables or previously univariately identified SNPs will improve the performance. Furthermore, the possible improvement by using random forest over logistic regression has been considered. The analysis has resulted in identifying genes through the SNPs that are related to biological functions related to type 2 diabetes. This includes genes which have not been directly associated with the disease. These are interesting for future study. However, the results show little to no improvement in prediction performance over models using only clinical variables suggesting that the signal for type 2 diabetes in the genome-wide association dataset is weak. Similarly, there is no improvement from using random forest over logistic regression for the final models suggesting that the linear signal in the genome data is much stronger than any non-linear signal.

Abstract [sv]

Antalet individer som lider av typ 2 diabetes ökar hastigt. Målet med denna uppsats är att undersöka huruvida förekomsten av typ 2 diabetes kan förutspås mer noggrant ur genome-wide association data med hjälp av maskininlärning jämfört med traditionella statistiska metoder. En variabel urvalsprocess med random forest har utförts, där variablerna i genomet, enbaspolymorfierna (SNPs), med störst betydelse för förutsägelsen av typ 2 diabetes identifierades. Det har undersökts om inkludering av dessa SNPs i modellerna jämfört med att enbart använda kliniska variabler eller tidigare identifierade SNPs förbättrar förutsägelsen. Vidare har den potentiella förbättringen av förutsägelsen genom användning av random forest jämfört med logistisk regression undersökts. Analysen av SNPs har resulterat i identifiering av gener som är relaterade till biologiska funktioner kopplade till typ 2 diabetes. Detta inkluderar gener som inte direkt har förknippats med sjukdomen tidigare, varför de är intressanta för fortsatta studier. Resultaten visar dock liten till ingen förbättring i förmåga att förutspåtyp 2 diabetes med hjälp av den använda metoden, jämfört med att enbart använda kliniska variabler vilket kan innebära att signalen för typ 2 diabetes i genome-wide association dataset är svag. På samma sätt kan ingen förbättring observeras vid användning av random forest jämfört med logistisk regression i de färdiga modellerna vilket kan innebära att signalen i datat är mycket starkare än någon ickelinjär signal.

Place, publisher, year, edition, pages
2015.
Series
TRITA-MAT-E, 2015:52
National Category
Computational Mathematics
Identifiers
URN: urn:nbn:se:kth:diva-171990OAI: oai:DiVA.org:kth-171990DiVA: diva2:845171
External cooperation
DTU, Danmarks Tekniske Universitet
Subject / course
Scientific Computing
Supervisors
Examiners
Available from: 2015-08-11 Created: 2015-08-11 Last updated: 2015-08-11Bibliographically approved

Open Access in DiVA

fulltext(3023 kB)410 downloads
File information
File name FULLTEXT01.pdfFile size 3023 kBChecksum SHA-512
f8552690e2d6d83031fde263dad0d6ba02fdb5407490e479a8b127ce07bf919f48b853c7912904659fec2d7df8c2503fbb48c39bfbea9f71032415d5189beb18
Type fulltextMimetype application/pdf

By organisation
Numerical Analysis, NA
Computational Mathematics

Search outside of DiVA

GoogleGoogle Scholar
Total: 410 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 409 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • harvard1
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf