Ändra sökning
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • harvard1
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf
Markov chain Monte Carlo for the reconstruction of lineage trees from single-cell DNA data
KTH, Skolan för elektroteknik och datavetenskap (EECS).
2019 (Engelska)Självständigt arbete på grundnivå (kandidatexamen), 10 poäng / 15 hpStudentuppsats (Examensarbete)Alternativ titel
Markov chain Monte Carlo för rekonstruktion av stamträd från encells DNA-data (Svenska)
Abstract [en]

The purpose of this study is to infer evolutionary trees through the Markovchain Monte Carlo algorithm (MCMC) [1] based on whole-genome single cell DNA sequencing data. By using MCMC we obtain likely tree structure samples according to the cells’ somatic point mutations in our data. This probabilistic framework takes into consideration the errors caused by the current technology such as amplification errors, sequencing errors and allelic dropouts. We investigated whether using this technique is reasonable given this biological scope. Most of the results give interesting conclusions that improve the previous results on the same Site Pair Model [2] and therefore we conclude that using MCMC is reasonable. Though, since the model is based on probabilities and the algorithm randomizes decisions the best results are not always guaranteed. One needs to be aware that a decent amount of data in the dataset is an important requisite to predict accurate tree structures. Furthermore, the computational time for this process is significantly high and can not be computed on regular laptops for large and realistic data sets. This is acceptable since for this type of research speed is not a strict requirement: it is worth waiting more for a given execution if the obtained results are more interestingor more accurate. Finally, we propose some further improvements for this strategy that could potentially obtain even better results in terms of accuracy and speed.

Abstract [sv]

Syftet med denna studie är att dra slutsatser om evolutionära träd genom Markov-kedjan Monte Carlo-algoritmen (MCMC) [1] baserat på DNA sekvenseringsdata med hela genomet. Genom att använda MCMC får vi sannolikt trädstruktur prover enligt cellenssomatiska punktmutationer i våra data. Detta probabilistiska ramverk tar hänsyn till de fel som orsakas av den nuvarande teknologin, såsom förstärkningsfel, sekvenseringsfel och alleliska utfall. Vi undersökte om användningen av denna teknik är rimlig med tanke på detta biologiska omfång. De flesta av resultaten ger intressanta slutsatser som förbättrar tidigare resultat på samma Site Pair Model [2] och drar därför slutsatsen att MCMC är rimligt. Då modellen är baserad på sannolikheter och algoritmen randomiserar beslut är de bästa resultaten inte alltid garanterade. Man måste vara medveten om att användningen av en tillbördigmängd data i datasatsen är en viktig förutsättning för att förutsäga exakta trädstrukturer. Dessutom är beräkningstiden för denna process betydligt hög och kan inte beräknas på vanliga bärbara datorer för stora och realistiskadataset. Detta är acceptabelt eftersom för denna typ av forskning är inte hastighet ett strikt krav: det är värt att vänta längre på ett visst utförande om de erhållna resultaten är mer intressanta eller mer exakta. Slutligen föreslår vi några ytterligare förbättringar för denna strategi som potentiellt kan få ännu bättre resultat när det gäller noggrannhet och snabbhet.

Ort, förlag, år, upplaga, sidor
2019.
Serie
TRITA-EECS-EX ; 2019:399
Nationell ämneskategori
Data- och informationsvetenskap
Identifikatorer
URN: urn:nbn:se:kth:diva-255269OAI: oai:DiVA.org:kth-255269DiVA, id: diva2:1338852
Ämne / kurs
Data- och systemvetenskap
Handledare
Examinatorer
Tillgänglig från: 2019-07-29 Skapad: 2019-07-24 Senast uppdaterad: 2019-07-29Bibliografiskt granskad

Open Access i DiVA

fulltext(996 kB)11 nedladdningar
Filinformation
Filnamn FULLTEXT01.pdfFilstorlek 996 kBChecksumma SHA-512
8b9aa050c2fe99bd4686f97ff9f0619bf1e53c14532bc1302bddce3ff8dd2c5ac02092606735d2eae4d40211d31320aa5106ab3c0394b08fef2e5a21143386c2
Typ fulltextMimetyp application/pdf

Av organisationen
Skolan för elektroteknik och datavetenskap (EECS)
Data- och informationsvetenskap

Sök vidare utanför DiVA

GoogleGoogle Scholar
Totalt: 11 nedladdningar
Antalet nedladdningar är summan av nedladdningar för alla fulltexter. Det kan inkludera t.ex tidigare versioner som nu inte längre är tillgängliga.

urn-nbn

Altmetricpoäng

urn-nbn
Totalt: 68 träffar
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • harvard1
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf