Change search
ReferencesLink to record
Permanent link

Direct link
Enabling Automatic Data Analysis in Bioinformatics Core Facilities – A high-throughput sequencing pipeline.
KTH, School of Computer Science and Communication (CSC).
2012 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesis
Abstract [en]


Enabling automated data analysis in bioinformatic core facilities

Author: Roman Valls Guimera

A genomic sequencing experiment, from sample sequencing to data analysis requires a system that can be easily adapted to researchers' needs. Currently, repetitive and error-prone steps need manual attention from specialists. This sub-optimal situation reduces the time for personnel to work on more interesting problems.

All of this must be done while a production system is running, so parallel development, testing and production environments are needed to provide better reliability. Furthermore, software development practices such as version control and continuous integration systems must be put in place to ensure source code quality and improved collaboration between bioinformaticians.

The goal of the thesis is to re-use and extend a modular software to efficiently process the growing amount of sequencing data. The ideal outcome is a system where bioinformaticians and biologists can focus and collaborate with state of the art analysis tools without worrying about repetitive tasks that offer no added value to their research.

Here we present an open source integrated solution that remediates the problems outlined above by using sound software engineering methods.

Abstract [sv]


Facilitera automatisk dataanalys i bioinformatisk core facilities

Författare: Roman Valls Guimera

Ett genomiskt sekvenseringsexperiment, från provsekvensering till dataanalys kräver ett system som lätt kan anpassas efter forskarnas behov. För närvarande, repetitiva och felbenägna steg behöver manuell övervakning från specialister. Denna underoptimala situation minskar den tiden för personal att arbeta med mer intressanta problem.

Allt detta måste ske samtidigt som ett produktionssystem är igång, så parallell utveckling, testning och produktionsmiljö behövs för att ge bättre tillförlitlighet. Ytterligare mjukvaruutvecklingsmetoder som versionshantering och kontinuerlig systemintegration måste införas för att säkerställa kvalitativ källkod och förbättrat samarbete mellan bioinformatiker.

Målet med exjobbet är att återanvända och bygga en modulär programvara för att effektivt behandla den ökande mängden sekvenseringsdata. Det ideala resultatet är ett system där bioinformatiker och biologer kan fokusera och samarbeta med toppmoderna analysverktyg utan att behöva oroa sig om repetitiva uppgifter som inte ger någon mervärde till sin forskning.

Här presenterar vi en integrerad lösning med öppen programvara som åtgärdar problemen beskrivna ovan med sunda programvarutveklingsmetoder.

Place, publisher, year, edition, pages
Trita-CSC-E, ISSN 1653-5715 ; 2012:020
National Category
Computer Science
URN: urn:nbn:se:kth:diva-130992OAI: diva2:654438
Educational program
Master of Science - Computational and Systems Biology
Available from: 2013-10-07 Created: 2013-10-07

Open Access in DiVA

No full text

Other links
By organisation
School of Computer Science and Communication (CSC)
Computer Science

Search outside of DiVA

GoogleGoogle Scholar
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

Total: 22 hits
ReferencesLink to record
Permanent link

Direct link