Open this publication in new window or tab >>2025 (English)Doctoral thesis, comprehensive summary (Other academic)
Abstract [en]
The exponential growth of biological data in recent years has necessitated the development of sophisticated computational methods to extract meaningful insights. This thesis explores various aspects of bioinformatics, focusing on benchmarking existing methods and developing novel approaches to address current challenges.
As computational biology and large-scale biological datasets continue to expand, the discipline has undergone a paradigm shift toward data-driven methodologies. This transformation is driven by advances in high-throughput technologies that generate vast amounts of genomic, proteomic, and other omics data. The sheer volume and complexity of these datasets demand innovative computational strategies.
Data-driven methods are increasingly central to biological research due to their ability to uncover hidden patterns, predict outcomes, and generate hypotheses from large-scale data. These approaches enable researchers to address complex biological problems that were previously intractable, leading to breakthroughs in areas such as personalized medicine, drug discovery, and systems biology.
This thesis presents four studies that advance bioinformatic methods and their applications. The first study modifies and evaluates the performance of Triqler, a probabilistic graphical model, for protein quantification in data-independent acquisition (DIA) mass spectrometry. By adapting Triqler for DIA data and comparing it with established methods, we demonstrate its superior performance in identifying differential proteins while maintaining better statistical calibration.
The second study introduces Prosit-transformers, a novel approach to prediction of MS2 spectrum intensity. By incorporating a transformer model pre-trained on protein features, we achieve improved prediction accuracy and reduced training time compared to the original Prosit model based on recurrent neural networks.
The third study explores proteome-wide alkylation to enhance peptide sequence coverage and detection sensitivity in proteomic analyses. Through systematic modification of peptides with varying alkyl chain lengths, we demonstrate significant improvements in ionization signals, particularly for hydrophilic peptides. This approach has potential applications in nanoproteomics and single-cell proteomics, where sample material is limited.
Finally, the fourth study presents difFUBAR, a scalable Bayesian method for comparing the selection pressure between different sets of branches in phylogenetic analyzes. Implemented in the Julia-based MolecularEvolution.jl framework, difFUBAR offers improved computational efficiency through subtree-likelihood caching and provides a robust alternative to frequentist approaches for characterizing site-wise variation in selection parameters.
Together, these studies contribute to the benchmarks for these novel methods to establish their superiority over existing methods and to develop the arsenal of novel computational approaches in bioinformatics. By addressing challenges in proteomics, computational biology, and evolutionary analysis, this thesis contributes to the ongoing advancement of data-driven methods in biology. The work presented here not only improves our understanding of biological systems, but also provides researchers with enhanced tools to extract meaningful insights from complex biological data.
Abstract [sv]
Den exponentiella tillväxten av biologiska data under de senaste åren har möjliggjort utvecklingen av sofistikerade beräkningsmetoder för att extrahera meningsfulla insikter. Denna avhandling utforskar olika aspekter av bioinformatik, med fokus på benchmarking av befintliga metoder och utveckling av nya tillvägagångssätt för att hantera aktuella utmaningar i fältet.
I takt med att den beräkningsbiologiska disciplinen och storskaliga biologiska dataset expanderar, har biologin genomgått ett paradigmskifte mot datadrivna metoder. Denna omställning drivs av framsteg inom högkapacitetsteknologier som genererar enorma mängder genomiska, proteomiska och andra omikdata. Den stora volymen och komplexiteten i dessa dataset kräver innovativa beräkningsstrategier.
Datadrivna metoder spelar en allt viktigare roll inom biologisk forskning tack vare deras förmåga att identifiera dolda mönster, förutsäga utfall och generera hypoteser från omfattande datamängder. Dessa tillvägagångssätt gör det möjligt för forskare att angripa komplexa biologiska problem som tidigare varit svårlösta, vilket i sin tur har lett till genombrott inom områden som personlig medicin, läkemedelsutveckling och systembiologi.
Denna avhandling presenterar fyra studier som främjar bioinformatiska metoder och deras tillämpningar. Den första studien modifierar och utvärderar prestandan hos Triqler, en probabilistisk grafisk modell, för proteinkvantifiering i dataoberoende insamling (DIA) masspektrometri. Genom att anpassa Triqler för DIA-data och jämföra den med etablerade metoder visar vi dess överlägsna prestanda i att identifiera differentiella proteiner samtidigt som den upprätthåller bättre statistisk kalibrering.
Den andra studien introducerar Prosit-transformers, ett nytt tillvägagångssätt för MS2-spektrumintensitetsprediktion. Genom att införliva en transformatormodell förtränad på proteinfunktioner uppnår vi förbättrad prediktionsnoggrannhet och minskad träningstid jämfört med den ursprungliga Prosit-modellen baserad på rekurrenta neurala nätverk.
Den tredje studien utforskar proteomvid alkylering för att förbättra peptidsekvenstäckning och detektionskänslighet i proteomiska analyser. Genom systematisk modifiering av peptider med varierande alkylkedjelängder visar vi betydande förbättringar i joniseringssignaler, särskilt för hydrofila peptider. Detta tillvägagångssätt har potentiella tillämpningar inom nanoproteomik och enkelcellsproteomik, där provmaterialet är begränsat.
Slutligen presenterar den fjärde studien difFUBAR, en skalbar Bayesiansk metod för att jämföra selektionstryck mellan olika uppsättningar av grenar i fylogenetiska analyser. Implementerad i det Juliabaserade ramverket MolecularEvolution.jl erbjuder difFUBAR förbättrad beräkningseffektivitet genom caching av delträdsannolikheter och ger ett robust alternativ till frekventistiska metoder för att karakterisera platsvis variation i selektionsparametrar.
Sammantaget bidrar dessa studier med riktmärken för dessa nya metoder för att fastställa deras överlägsenhet jämfört med befintliga metoder och bidrar till att utveckla arsenalen av nya beräkningsmetoder inom bioinformatik. Genom att ta itu med utmaningar inom proteomik, beräkningsbiologi och evolutionär analys bidrar denna avhandling till den pågående utvecklingen av datadrivna metoder inom biologin. Arbetet som presenteras här förbättrar inte bara vår förståelse av biologiska system utan ger också forskare förbättrade verktyg för att extrahera meningsfulla insikter från komplexa biologiska data.
Place, publisher, year, edition, pages
Stockholm: KTH Royal Institute of Technology, 2025. p. 109
Series
TRITA-CBH-FOU ; 2025:18
Keywords
Computational Biology, Bioinformatics, Method development, Proteomics, Mass-spectrometry, Phylogenetic, Evolutionary biology, Baysian statistic, Statistics, Machine Learning, Beräkningsbiologi, Bioinformatik, Metodutveckling, Proteomik, Mass-spektrometri, Fylogeni, Evolutionärbiologi, Bayesiansk statistik, Statistik, Maskininlärning
National Category
Bioinformatics (Computational Biology)
Research subject
Biotechnology
Identifiers
urn:nbn:se:kth:diva-363684 (URN)978-91-8106-328-8 (ISBN)
Public defence
2025-06-12, Air&Fire, Tomtebodavägen 23A, Solna, 14:00 (English)
Opponent
Supervisors
Note
QC 20250521
2025-05-212025-05-202025-12-16Bibliographically approved