kth.sePublications KTH
Operational message
There are currently operational disruptions. Troubleshooting is in progress.
Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Prosit Transformer: A transformer for Prediction of MS2 Spectrum Intensities
KTH, Centres, Science for Life Laboratory, SciLifeLab. KTH, School of Engineering Sciences in Chemistry, Biotechnology and Health (CBH).
KTH, School of Engineering Sciences in Chemistry, Biotechnology and Health (CBH), Gene Technology. KTH, Centres, Science for Life Laboratory, SciLifeLab.ORCID iD: 0000-0001-9242-4107
Tech Univ Munich TUM, Computat Mass Spectrometry, D-85354 Freising Weihenstephan, Germany..ORCID iD: 0000-0001-6440-9794
Tech Univ Munich TUM, Computat Mass Spectrometry, D-85354 Freising Weihenstephan, Germany..ORCID iD: 0000-0002-9224-3258
Show others and affiliations
2022 (English)In: Journal of Proteome Research, ISSN 1535-3893, E-ISSN 1535-3907, Vol. 21, no 5, p. 1359-1364Article in journal (Refereed) Published
Abstract [en]

Machine learning has been an integral part of interpreting data from mass spectrometry (MS)-based proteomics for a long time. Relatively recently, a machine-learning structure appeared successful in other areas of bioinformatics, Transformers. Furthermore, the implementation of Transformers within bioinformatics has become relatively convenient due to transfer learning, i.e., adapting a network trained for other tasks to new functionality. Transfer learning makes these relatively large networks more accessible as it generally requires less data, and the training time improves substantially. We implemented a Transformer based on the pretrained model TAPE to predict MS2 intensities. TAPE is a general model trained to predict missing residues from protein sequences. Despite being trained for a different task, we could modify its behavior by adding a prediction head at the end of the TAPE model and fine-tune it using the spectrum intensity from the training set to the well-known predictor Prosit. We demonstrate that the predictor, which we call Prosit Transformer, outperforms the recurrent neural-network-based predictor Prosit, increasing the median angular similarity on its holdout set from 0.908 to 0.929. We believe that Transformers will significantly increase prediction accuracy for other types of predictions within MS-based proteomics.

Place, publisher, year, edition, pages
American Chemical Society (ACS) , 2022. Vol. 21, no 5, p. 1359-1364
Keywords [en]
Machine Learning, Proteomics, MS2 Spectra, Transformers
National Category
Other Electrical Engineering, Electronic Engineering, Information Engineering
Identifiers
URN: urn:nbn:se:kth:diva-313347DOI: 10.1021/acs.jproteome.1c00870ISI: 000797404600015PubMedID: 35413196Scopus ID: 2-s2.0-85129122322OAI: oai:DiVA.org:kth-313347DiVA, id: diva2:1663408
Note

QC 20220602

Available from: 2022-06-02 Created: 2022-06-02 Last updated: 2025-05-21Bibliographically approved
In thesis
1. Machine Learning methods in shotgun proteomics
Open this publication in new window or tab >>Machine Learning methods in shotgun proteomics
2023 (English)Licentiate thesis, comprehensive summary (Other academic)
Abstract [en]

As high-throughput biology experiments generate increasing amounts of data, the field is naturally turning to data-driven methods for the analysis and extraction of novel insights. These insights into biological systems are crucial for understanding disease progression, drug targets, treatment development, and diagnostics methods, ultimately leading to improving human health and well-being, as well as, deeper insight into cellular biology. Biological data sources such as the genome, transcriptome, proteome, metabolome, and metagenome provide critical information about biological system structure, function, and dynamics. The focus of this licentiate thesis is on proteomics, the study of proteins, which is a natural starting point for understanding biological functions as proteins are crucial functional components of cells. Proteins play a crucial role in enzymatic reactions, structural support, transport, storage, cell signaling, and immune system function. In addition, proteomics has vast data repositories and technical and methodological improvements are continually being made to yield even more data. However, generating proteomic data involves multiple steps, which are prone to errors, making sophisticated models essential to handle technical and biological artifacts and account for uncertainty in the data. In this licentiate thesis, the use of machine learning and probabilistic methods to extract information from mass-spectrometry-based proteomic data is investigated. The thesis starts with an introduction to proteomics, including a basic biological background, followed by a description of how massspectrometry-based proteomics experiments are performed, and challenges in proteomic data analysis. The statistics of proteomic data analysis are also explored, and state-of-the-art software and tools related to each step of the proteomics data analysis pipeline are presented. The thesis concludes with a discussion of future work and the presentation of two original research works. The first research work focuses on adapting Triqler, a probabilistic graphical model for protein quantification developed for data-dependent acquisition (DDA) data, to data-independent acquisition (DIA) data. Challenges in this study included verifying that DIA data conformed with the model used in Triqler, addressing benchmarking issues, and modifying the missing value model used by Triqler to adapt for DIA data. The study showed that DIA data conformed with the properties required by Triqler, implemented a protein inference harmonization strategy, and modified the missing value model to adapt for DIA data. The study concluded by showing that Triqler outperformed current protein quantification techniques. The second research work focused on developing a novel deep-learning based MS2-intensity predictor by incorporating the self-attention mechanism called transformer into Prosit, an established Recurrent Neural Networks (RNN) based deep learning framework for MS2 spectrum intensity prediction. RNNs are a type of neural network that can efficiently process sequential data by capturing information from previous steps, in a sequential manner. The transformer self-attention mechanism allows a model to focus on different parts of its input sequence during processing independently, enabling it to capture dependencies and relationships between elements more effectively. The transformers therefore remedy some of the drawbacks of RNNs, as such, we hypothesized that the implementation of MS2-intensity predictor using transformers rather than RNN would improve its performance. Hence, Prosit-transformer was developed, and the study showed that the model training time and the similarity between the predicted MS2 spectrum and the observed spectrum improved. These original research works address various challenges in computational proteomics and contribute to the development of data-driven life science.

Abstract [sv]

Allteftersom high-throughput experiment genererar allt större mängder data vänder sig området naturligt till data-drivna metoder för analys och extrahering av nya insikter. Dessa insikter om biologiska system är avgörande för att förstå sjukdomsprogression, läkemedelspåverkan, behandlingsutveckling, och diagnostiska metoder, vilket i slutändan leder till en förbättring av människors hälsa och välbefinnande, såväl som en djupare förståelse av cell biologi. Biologiska datakällor som genomet, transkriptomet, proteomet, metabolomet och metagenomet ger kritisk information om biologiska systems struktur, funktion och dynamik. I licentiatuppsats fokusområde ligger på proteomik, studiet av proteiner, vilket är en naturlig startpunkt för att förstå biologiska funktioner eftersom proteiner är avgörande funktionella komponenter i celler. Dessa proteiner spelar en avgörande roll i enzymatiska reaktioner, strukturellt stöd, transport, lagring, cellsignalering och immunsystemfunktion. Dessutom har proteomik har stora dataarkiv och tekniska samt metodologiska förbättringar görs kontinuerligt för att ge ännu mer data. Men för att generera proteomisk data krävs flera steg, som är felbenägna, vilket gör att sofistikerade modeller är väsentliga för att hantera tekniska och biologiska artefakter och för att ta hänsyn till osäkerhet i data. I denna licentiatuppsats undersöks användningen av maskininlärning och probabilistiska metoder för att extrahera information från masspektrometribaserade proteomikdata. Avhandlingen börjar med en introduktion till proteomik, inklusive en grundläggande biologisk bakgrund, följt av en beskrivning av hur masspektrometri-baserade proteomikexperiment utförs och utmaningar i proteomisk dataanalys. Statistiska metoder för proteomisk dataanalys utforskas också, och state-of-the-art mjukvara och verktyg som är relaterade till varje steg i proteomikdataanalyspipelinen presenteras. Avhandlingen avslutas med en diskussion om framtida arbete och presentationen av två original forskningsarbeten. Det första forskningsarbetet fokuserar på att anpassa Triqler, en probabilistisk grafisk modell för proteinkvantifiering som utvecklats för datadependent acquisition (DDA) data, till data-independent acquisition (DIA) data. Utmaningarna i denna studie inkluderade att verifiera att DIA-datas egenskaper överensstämde med modellen som användes i Triqler, att hantera benchmarking-frågor och att modifiera missing-value modellen som användes av Triqler till DIA-data. Studien visade att DIA-data överensstämde med de egenskaper som krävdes av Triqler, implementerade en proteininferensharmoniseringsstrategi och modifierade missing-value modellen till DIA-data. Studien avslutades med att visa att Triqler överträffade nuvarande state-of-the-art proteinkvantifieringsmetoder. Det andra forskningsarbetet fokuserade på utvecklingen av en djupinlärningsbaserad MS2-intensitetsprediktor genom att inkorporera self-attention mekanismen som kallas för transformer till Prosit, en etablerad Recurrent Neural Network (RNN) baserad djupinlärningsramverk för MS2 spektrum intensitetsprediktion. RNN är en typ av neurala nätverk som effektivt kan bearbeta sekventiell data genom att bevara och använda dolda tillstånd som fångar information från tidigare steg på ett sekventiellt sätt. Självuppmärksamhetsmekanismen i transformer tillåter modellen att fokusera på olika delar av sekventiellt data samtidigt under bearbetningen oberoende av varandra, vilket gör det möjligt att fånga relationer mellan elementen mer effektivt. Genom detta lyckas Transformer åtgärda vissa nackdelar med RNN, och därför hypotiserade vi att en implementation av en ny MS2-intensitetprediktor med transformers istället för RNN skulle förbättra prestandan. Därmed konstruerades Prosit-transformer, och studien visade att både modellträningstiden och likheten mellan predicerat MS2-spektrum och observerat spektrum förbättrades. Dessa originalforskningsarbeten hanterar olika utmaningar inom beräkningsproteomik och bidrar till utvecklingen av datadriven livsvetenskap.

Place, publisher, year, edition, pages
Stockholm: KTH Royal Institute of Technology, 2023. p. 68
Series
TRITA-CBH-FOU ; 2023:29
Keywords
mass spectrometry protein summarization Bayesian hierarchical modelling label-free quantification data-independent acquisition mass spectrometry, benchmark mathematical methods, transformers, computational proteomics, proteomics, bioinformatics, bert, ms2 intensity, probabilistic modelling
National Category
Bioinformatics (Computational Biology)
Research subject
Biotechnology
Identifiers
urn:nbn:se:kth:diva-327122 (URN)978-91-8040-634-5 (ISBN)
Presentation
2023-06-13, Air & Fire, Science for Life Laboratory, Tomtebodavägen 23A, via Zoom: https://kth-se.zoom.us/j/63926020559, 17121 Solna, 14:00 (English)
Opponent
Supervisors
Funder
Swedish Research Council, 2017-04030
Note

QC 2023-05-22

Available from: 2023-05-22 Created: 2023-05-19 Last updated: 2023-06-02Bibliographically approved
2. Machine Learning Models in Proteomics and Phylogenetics
Open this publication in new window or tab >>Machine Learning Models in Proteomics and Phylogenetics
2025 (English)Doctoral thesis, comprehensive summary (Other academic)
Abstract [en]

The exponential growth of biological data in recent years has necessitated the development of sophisticated computational methods to extract meaningful insights. This thesis explores various aspects of bioinformatics, focusing on benchmarking existing methods and developing novel approaches to address current challenges.

As computational biology and large-scale biological datasets continue to expand, the discipline has undergone a paradigm shift toward data-driven methodologies. This transformation is driven by advances in high-throughput technologies that generate vast amounts of genomic, proteomic, and other omics data. The sheer volume and complexity of these datasets demand innovative computational strategies.

Data-driven methods are increasingly central to biological research due to their ability to uncover hidden patterns, predict outcomes, and generate hypotheses from large-scale data. These approaches enable researchers to address complex biological problems that were previously intractable, leading to breakthroughs in areas such as personalized medicine, drug discovery, and systems biology.

This thesis presents four studies that advance bioinformatic methods and their applications. The first study modifies and evaluates the performance of Triqler, a probabilistic graphical model, for protein quantification in data-independent acquisition (DIA) mass spectrometry. By adapting Triqler for DIA data and comparing it with established methods, we demonstrate its superior performance in identifying differential proteins while maintaining better statistical calibration.

The second study introduces Prosit-transformers, a novel approach to prediction of MS2 spectrum intensity. By incorporating a transformer model pre-trained on protein features, we achieve improved prediction accuracy and reduced training time compared to the original Prosit model based on recurrent neural networks.

The third study explores proteome-wide alkylation to enhance peptide sequence coverage and detection sensitivity in proteomic analyses. Through systematic modification of peptides with varying alkyl chain lengths, we demonstrate significant improvements in ionization signals, particularly for hydrophilic peptides. This approach has potential applications in nanoproteomics and single-cell proteomics, where sample material is limited.

Finally, the fourth study presents difFUBAR, a scalable Bayesian method for comparing the selection pressure between different sets of branches in phylogenetic analyzes. Implemented in the Julia-based MolecularEvolution.jl framework, difFUBAR offers improved computational efficiency through subtree-likelihood caching and provides a robust alternative to frequentist approaches for characterizing site-wise variation in selection parameters.

Together, these studies contribute to the benchmarks for these novel methods to establish their superiority over existing methods and to develop the arsenal of novel computational approaches in bioinformatics. By addressing challenges in proteomics, computational biology, and evolutionary analysis, this thesis contributes to the ongoing advancement of data-driven methods in biology. The work presented here not only improves our understanding of biological systems, but also provides researchers with enhanced tools to extract meaningful insights from complex biological data.

Abstract [sv]

Den exponentiella tillväxten av biologiska data under de senaste åren har möjliggjort utvecklingen av sofistikerade beräkningsmetoder för att extrahera meningsfulla insikter. Denna avhandling utforskar olika aspekter av bioinformatik, med fokus på benchmarking av befintliga metoder och utveckling av nya tillvägagångssätt för att hantera aktuella utmaningar i fältet.

I takt med att den beräkningsbiologiska disciplinen och storskaliga biologiska dataset expanderar, har biologin genomgått ett paradigmskifte mot datadrivna metoder. Denna omställning drivs av framsteg inom högkapacitetsteknologier som genererar enorma mängder genomiska, proteomiska och andra omikdata. Den stora volymen och komplexiteten i dessa dataset kräver innovativa beräkningsstrategier.

Datadrivna metoder spelar en allt viktigare roll inom biologisk forskning tack vare deras förmåga att identifiera dolda mönster, förutsäga utfall och generera hypoteser från omfattande datamängder. Dessa tillvägagångssätt gör det möjligt för forskare att angripa komplexa biologiska problem som tidigare varit svårlösta, vilket i sin tur har lett till genombrott inom områden som personlig medicin, läkemedelsutveckling och systembiologi.

Denna avhandling presenterar fyra studier som främjar bioinformatiska metoder och deras tillämpningar. Den första studien modifierar och utvärderar prestandan hos Triqler, en probabilistisk grafisk modell, för proteinkvantifiering i dataoberoende insamling (DIA) masspektrometri. Genom att anpassa Triqler för DIA-data och jämföra den med etablerade metoder visar vi dess överlägsna prestanda i att identifiera differentiella proteiner samtidigt som den upprätthåller bättre statistisk kalibrering.

Den andra studien introducerar Prosit-transformers, ett nytt tillvägagångssätt för MS2-spektrumintensitetsprediktion. Genom att införliva en transformatormodell förtränad på proteinfunktioner uppnår vi förbättrad prediktionsnoggrannhet och minskad träningstid jämfört med den ursprungliga Prosit-modellen baserad på rekurrenta neurala nätverk.

Den tredje studien utforskar proteomvid alkylering för att förbättra peptidsekvenstäckning och detektionskänslighet i proteomiska analyser. Genom systematisk modifiering av peptider med varierande alkylkedjelängder visar vi betydande förbättringar i joniseringssignaler, särskilt för hydrofila peptider. Detta tillvägagångssätt har potentiella tillämpningar inom nanoproteomik och enkelcellsproteomik, där provmaterialet är begränsat.

Slutligen presenterar den fjärde studien difFUBAR, en skalbar Bayesiansk metod för att jämföra selektionstryck mellan olika uppsättningar av grenar i fylogenetiska analyser. Implementerad i det Juliabaserade ramverket MolecularEvolution.jl erbjuder difFUBAR förbättrad beräkningseffektivitet genom caching av delträdsannolikheter och ger ett robust alternativ till frekventistiska metoder för att karakterisera platsvis variation i selektionsparametrar.

Sammantaget bidrar dessa studier med riktmärken för dessa nya metoder för att fastställa deras överlägsenhet jämfört med befintliga metoder och bidrar till att utveckla arsenalen av nya beräkningsmetoder inom bioinformatik. Genom att ta itu med utmaningar inom proteomik, beräkningsbiologi och evolutionär analys bidrar denna avhandling till den pågående utvecklingen av datadrivna metoder inom biologin. Arbetet som presenteras här förbättrar inte bara vår förståelse av biologiska system utan ger också forskare förbättrade verktyg för att extrahera meningsfulla insikter från komplexa biologiska data.

Place, publisher, year, edition, pages
Stockholm: KTH Royal Institute of Technology, 2025. p. 109
Series
TRITA-CBH-FOU ; 2025:18
Keywords
Computational Biology, Bioinformatics, Method development, Proteomics, Mass-spectrometry, Phylogenetic, Evolutionary biology, Baysian statistic, Statistics, Machine Learning, Beräkningsbiologi, Bioinformatik, Metodutveckling, Proteomik, Mass-spektrometri, Fylogeni, Evolutionärbiologi, Bayesiansk statistik, Statistik, Maskininlärning
National Category
Bioinformatics (Computational Biology)
Research subject
Biotechnology
Identifiers
urn:nbn:se:kth:diva-363684 (URN)978-91-8106-328-8 (ISBN)
Public defence
2025-06-12, Air&Fire, Tomtebodavägen 23A, Solna, 14:00 (English)
Opponent
Supervisors
Note

QC 20250521

Available from: 2025-05-21 Created: 2025-05-20 Last updated: 2025-12-16Bibliographically approved

Open Access in DiVA

No full text in DiVA

Other links

Publisher's full textPubMedScopus

Authority records

Ekvall, MarkusTruong, PatrickKäll, Lukas

Search in DiVA

By author/editor
Ekvall, MarkusTruong, PatrickGabriel, WassimWilhelm, MathiasKäll, Lukas
By organisation
Science for Life Laboratory, SciLifeLabSchool of Engineering Sciences in Chemistry, Biotechnology and Health (CBH)Gene Technology
In the same journal
Journal of Proteome Research
Other Electrical Engineering, Electronic Engineering, Information Engineering

Search outside of DiVA

GoogleGoogle Scholar

doi
pubmed
urn-nbn

Altmetric score

doi
pubmed
urn-nbn
Total: 175 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf