Bioinformatics for microbiome analysis
2024 (English)Doctoral thesis, comprehensive summary (Other academic)
Abstract [en]
Marine ecosystems harbour a vast microbial diversity which play a crucial role in ecosystemfunctioning. Advancements in DNA sequencing technologies have transformed our ability to analyse microbial populations comprehensively. Metagenomic sequencing has emerged as a pivotal tool for characterising microbial communities across various environments. Bioinformatics, an interdisciplinary field, facilitates the analysis and interpretation of large biological datasets, including microbiome data.
This thesis aims to enhance bioinformatics approaches for analysing marine microbiomes. It comprises four papers covering bioinformatic developments and genomic data analysis across multiple topics, including metagenomics, pangenomics, comparative genomics and population genomics:
Paper I evaluated three assembly strategies for constructing gene catalogues from metagenomic samples: individual sample assembly with gene clustering, co-assembly of all samples, and a new hybrid approach, mix assembly. The efficacy of the mix-assembly approach was highlighted for maximising information extraction from metagenomic samples, offering opportunities for further exploration in microbial ecology and environmental genomics.
Using the mix-assembly approach, we conducted a comprehensive analysis of 124 metagenomic samples sourced from the Baltic Sea, resulting in the refinement of the Baltic Sea Gene Set (BAGS v1.1), which now encompasses 66.53 million genes annotated for both functionality and taxonomy. In Paper II, we introduced an open-access initiative that provided the mix-assembly pipeline code. We also developed the BAGS-Shiny web application to facilitate user interaction with this extensive gene catalogue.
Paper III focused on whole-genome sequencing and assembly of 82 environmental V. vulnificus strains from the Baltic Sea, enabling comprehensive comparative genomic analysis. I developed the PhyloBOTL pipeline, which uses a phylogeny-based approach to identify genes associated with pathogenicity. Comparative genomics of 208 clinical isolates and 199 environmental isolates revealed 58 enriched orthologs in pathogenic strains, including known virulence factors and novel genes. Potential biomarkers for pathogenic V. vulnificus were identified, and primers suitable for PCR-based environmental monitoring were designed (in silico).
In Paper IV population genomics analysis was carried out, using the Input_Pogenom pipeline and POGENOM tool, to explore intraspecific biogeographical patterns. Geographical barriers were found to significantly influence aquatic bacteria distribution, with greater genetic differentiation observed between Baltic and Caspian seas than within the Baltic Sea's salinity gradient.
Abstract [sv]
Havsmiljöer hyser en enorm mikrobiell mångfald som spelar en avgörande roll för ekosystemens funktion. Framsteg inom DNA-sekvenseringstekniker har revolutionerat vår förmåga att analysera
den mikrobiella populationen på ett omfattande sätt. Metagenomisk sekvensering har framträtt som ett centralt verktyg för att karakterisera mikrobiella samhällen i olika miljöer. Bioinformatik, ett tvärvetenskapligt fält, underlättar analys och tolkning av stora biologiska dataset, inklusive mikrobiomdata.
Den här avhandlingen syftar till att förbättra bioinformatiska metoder för att analysera marina mikrobiom. Den består av fyra artiklar som täcker bioinformatisk utveckling och analys av genomdata inom flera områden, inklusive metagenomik, pangenom, jämförande genomik och populationsgenetik:
Artikel I utvärderade tre monteringsstrategier för att konstruera genkataloger från metagenomiska prover: montering av enskilda prover med genglustering, sammontering av alla prover och en ny hybridmetod, mixmontering. Effektiviteten hos mixmonteringsmetoden lyftes fram för att maximera informationsutvinning från metagenomiska prover, vilket öppnar för vidare utforskning inom mikrobiell ekologi och miljögenomik.
Med hjälp av mixmonteringsmetoden genomförde vi en omfattande analys av 124 metagenomiska prover från Östersjön, vilket resulterade i förfiningen av Östersjöns gensets (BAGS v1.1), som nu omfattar 66,53 miljoner gener annoterade för både funktion och taxonomi. I artikel II introducerade vi ett öppet initiativ som tillhandahöll koden för mixmonterings-pipeline. Vi utvecklade också BAGS-Shiny webbapplikationen för att underlätta användarinteraktion med denna omfattande gensetskatalog.
Artikel III fokuserade på helgenomsekvensering och montering av 82 miljörelaterade V. vulnificus-stammar från Östersjön, vilket möjliggjorde omfattande jämförande genomisk analys.
Jag utvecklade PhyloBOTL-pipelinen, som använder en fylogenibaserad metod för att identifiera gener associerade med patogenicitet. Jämförande genomik av 208 kliniska isolat och 199 miljöisolerade isolat avslöjade 58 anrikade ortologer i patogena stammar, inklusive kända virulensfaktorer och nya gener. Potentiella biomarkörer för patogena V. vulnificus identifierades och primers lämpliga för PCR-baserad miljöövervakning designades (in silico).
I artikel IV utfördes populationsgenetisk analys med hjälp av Input_Pogenom-pipelinen och POGENOM-verktyget för att utforska intraspecifika biogeografiska mönster. Geografiska barriärer visade sig signifikant påverka vattenlevande bakteriers utbredning, med större genetisk differentiering observerad mellan Östersjön och Kaspiska havet än inom Östersjöns salthaltsgradient.
Place, publisher, year, edition, pages
KTH Royal Institute of Technology, 2024. , p. 51
Series
TRITA-CBH-FOU ; 2024:26
Keywords [en]
Baltic Sea, Bioinformatics, Comparative genomics, Metagenomics, Vibrio vulnificus
Keywords [sv]
Östersjön, Bioinformatik, Jämförande genomik, Metagenomik, Vibrio vulnificus
National Category
Bioinformatics (Computational Biology)
Research subject
Biotechnology
Identifiers
URN: urn:nbn:se:kth:diva-346285ISBN: 978-91-8040-956-8 (print)OAI: oai:DiVA.org:kth-346285DiVA, id: diva2:1857951
Public defence
2024-06-14, Marie, Widerströmska huset, Tomtebodeväegen 18a, via Zoom: https://kth-se.zoom.us/j/67263907871, Solna, 13:00 (English)
Opponent
Supervisors
Note
QC 2024-05-15
2024-05-152024-05-152024-09-23Bibliographically approved
List of papers