Learning Representations for Tandem Mass Spectra: Self-Supervised Methods and Inductive Biases
2026 (English)Licentiate thesis, comprehensive summary (Other academic)
Abstract [en]
Mass spectrometry (MS) is central to modern proteomics, enabling analysis of proteins and peptides based on their mass-to-charge ratio. Tandem mass spectrometry (MS2) encodes peptide fragmentation patterns and forms the basis for sequence identification. While database search has long dominated this process, deep learning has opened new paths for the direct interpretation of spectra. This thesis investigates how neural networks can learn representations of MS2 spectra. Two complementary research directions are explored.
First, selected self-supervised pretraining strategies are evaluated through controlled downstream experiments using encoders pretrained on unlabeled MS2 corpora. Self-distillation yields global embeddings that implicitly encode aspects of peptide chemical properties, and masked autoencoding provides modest improvements in de novo optimization and accuracy. However, the resulting improvements fall short of state-of-the-art supervised de novo sequencing performance.
Second, we introduce Pairwise Attention, a transformer architecture that incorporates a domain-aligned relational inductive bias by conditioning attention on pairwise mass differences between peaks. This yields consistent performance improvements on standard de novo sequencing benchmarks and strong generalization across datasets.
Overall, the results show that self-supervised learning can recover meaningful structure from raw MS2 data, while architectural inductive biases currently offer the most robust and reliable gains for de novo peptide sequencing.
Abstract [sv]
Masspektrometrin (MS) är central inom modern proteomik och möjliggör analysav proteiner och peptider baserat på deras massa. Tandem-masspektrometri (MS2)kodar fragmenteringsmönster för peptider och utgör grunden för sekvensidentifiering. Även om databassökning länge har dominerat denna process har djupinlärning öppnat nya möjligheter för direkt tolkning av spektra.
Denna avhandling undersöker hur neurala nätverk kan lära sig representationer av MS2-spektra. Två kompletterande forskningsinriktningar studeras.
Först utvärderas utvalda självövervakade förträningsstrategier genom kontrollerade experiment med encoders som förtränats på oetiketterade MS2-korpusar. Självdistillation ger globala inbäddningar som implicit kodar aspekter av peptiders kemiska egenskaper, och masked autoencoding ger måttliga förbättringar i de novo-precision. De resulterande förbättringarna når dock inte upp till prestandan hos dagens state-of-the-art-metoder för övervakad de novo-sekvensering.
Sedan introduceras Pairwise Attention, en transformerarkitektur som inkorporerar en domänanpassad induktiv bias genom att villkora Attention på parvisa masskillnader mellan toppar. Detta ger prestandaförbättringar på etablerade de novo-sekvenseringsbenchmarkar samt stark generalisering över dataset.
Sammantaget visar resultaten att självövervakad inlärning kan återvinna meningsfull struktur ur råa MS2-data, medan induktiva biaser för närvarande erbjuder de mest robusta förbättringarna för de novo-peptidsekvensering.
Place, publisher, year, edition, pages
Stockholm: KTH Royal Institute of Technology, 2026. , p. 45
Series
TRITA-CBH-FOU ; 2026:21
Keywords [en]
Mass Spectrometry, Deep Learning, De Novo Sequencing, Self-Supervised Learning
National Category
Bioinformatics and Computational Biology
Research subject
Biotechnology
Identifiers
URN: urn:nbn:se:kth:diva-378805ISBN: 978-91-8106-586-2 (print)OAI: oai:DiVA.org:kth-378805DiVA, id: diva2:2049215
Presentation
2026-04-17, Pascal, Gamma-6, Tomtebodavägen 23, Solna, Stockholm, 13:15 (English)
Opponent
Supervisors
Note
QC 2026-03-27
2026-03-272026-03-272026-03-30Bibliographically approved
List of papers