Algorithms and machine learning for single-molecule protein sequencing methods
2025 (Engelska)Doktorsavhandling, sammanläggning (Övrigt vetenskapligt)
Abstract [en]
Single-molecule protein sequencing (SMPS) technologies are powerfulalternatives to mass spectrometry, offering new opportunities for highresolutionproteomics. These technologies, including nanopores, nanogaps,and fluorosequencing, enable the direct identification of protein moleculesat single-molecule resolution. Their potential spans diverse applications,from supporting cutting-edge biological research to developing diagnosticsand therapeutics. However, SMPS platforms generate complex and noisysignals in large volumes, making computational analysis a key bottleneck inunlocking their full potential.This thesis addresses that challenge by developing scalable, modelinformedand data-driven algorithms tailored to SMPS data. Drawing ontools from statistical signal processing and machine learning, the work focuseson computational methods that improve signal denoising, inference accuracy,and runtime efficiency across several SMPS technologies.The contributions span three major sensing platforms. For nanogap tunnelingdevices, a fast and robust denoising algorithm is introduced to managethe heavy-tailed noise characteristic of electronic tunneling signals. Fornanopore DNA sensing, a physics-inspired data augmentation method is proposedto improve the generalization of neural networks without requiring additionalexperimental data. Alongside this data augmentation, the thesisintroduces a novel neural network architecture that leverages the augmentation’sbenefits and incorporates modern design principles, such as residualconnections and attention mechanisms, to outperform state-of-the-art modelson a nanopore classification task.Finally, for fluorosequencing, this thesis presents two complementary contributions:(i) a fast beam search decoder for peptide inference and (ii) anexpectation-maximization framework for protein abundance estimation. Theproposed decoder achieves up to a tenfold speedup over existing methods withonly minimal loss in accuracy. Building on its output, the EM-based proteininference framework enables efficient estimation of protein abundances frompeptide-level posteriors. We demonstrate that this approach not only improvesquantification accuracy on small-scale datasets but also scales to thefull human proteome with tractable computation times, offering a viable routetoward single-molecule proteomics at large scale. Together, these tools contributeto the broader effort of making SMPS computationally tractable atthe scale required for full-proteome and single-cell analyses.All methods in this thesis have been made available as open-source software,reflecting a commitment to reproducibility and to supporting the growingSMPS research community. Through the integration of domain knowledge,algorithmic design, and computational efficiency, this thesis aims topush the boundaries of what is achievable in next-generation proteomics.
Abstract [sv]
Singelmolekylär proteinsekvensering (SMPS) utgör ett kraftfullt komplement och alternativ till masspektrometri och öppnar för nya möjligheter inom högupplöst proteomik. Tekniker som nanoporer, nanogap-strukturer och fluorosekvensering möjliggör direkt identifiering av enskilda proteinmolekyler med singelmolekylupplösning. Användningsområdet är brett—från stöd för frontlinjens biologiska forskning till utveckling av diagnostik och terapier. Samtidigt genererar SMPS-plattformar komplexa och brusiga signaler i stora volymer, vilket gör den beräkningsmässiga analysen till ett centralt hinder för att realisera teknikernas fulla potential.
Avhandlingen adresserar denna utmaning genom att utveckla skalbara, modellunderbyggda och datadrivna algoritmer specifikt anpassade för SMPS-data. Med utgångspunkt i statistisk signalbehandling och maskininlärning utvecklas metoder som förbättrar brusreducering, inferensnoggrannhet och beräkningseffektivitet över flera SMPS-tekniker.
Bidragen spänner över tre huvudplattformar. För nanogap-baserad tunneleringssensorik presenteras en snabb och robust algoritm för brusreducering som effektivt hanterar det tungsvansade brus som är typiskt för elektroniska tunneleringssignaler. För nanoporsbaserad DNA-avläsning introduceras en fysikinspirerad dataaugmentering som höjer neurala nätverks generaliseringsförmåga utan krav på ytterligare experimentella data. I anslutning därtill föreslås en ny neuronnätsarkitektur som drar nytta av augmenteringen och införlivar moderna designprinciper, bland annat residualkopplingar och uppmärksamhetsmekanismer, vilket sammantaget överträffar state-of-the-art avancerade metoder på en nanoporklassificeringsuppgift.
För fluorosekvensering presenteras två kompletterande komponenter: (i) en snabb beam search-avkodare för peptid-inferens och (ii) ett ramverk för proteinkvantifiering baserat på Expectation Maximization (EM). Avkodaren är upp till tio gånger snabbare än befintliga metoder med endast marginell försämring i noggrannhet. Baserat på dess utdata möjliggör det EM-baserade proteininferensramverket effektiv skattning av proteinabundanser från posteriorer på peptidnivå. Vi visar att angreppssättet inte bara förbättrar kvantifieringsnoggrannheten på småskaliga dataset, utan även skalar till hela det mänskliga proteomet med hanterbara beräkningstider, och därmed erbjuder en praktiskt genomförbar väg mot singelmolekylär proteomik i stor skala. Tillsammans bidrar dessa verktyg till att göra SMPS beräkningsmässigt hanterligt i den skala som krävs för helproteom- och enkelcellsanalyser.
Samtliga metoder i avhandlingen har gjorts tillgängliga som programvara med öppen källkod, i linje med ett starkt åtagande för reproducerbarhet och för att stödja det växande forskningsfältet kring SMPS. Genom att förena domänkunskap, välgrundad algoritmdesign och beräkningseffektivitet syftar avhandlingen till att flytta fram gränserna för vad som är möjligt inom nästa generations proteomik.
Ort, förlag, år, upplaga, sidor
Kungliga Tekniska högskolan, 2025. , s. 135
Serie
TRITA-EECS-AVL ; 2025:86
Nyckelord [en]
Signal processing, Hidden Markov Models, Expectation Maximization, CUSUM, Data augmentation, Convolutional Neural Networks
Nationell ämneskategori
Annan elektroteknik och elektronik Bioinformatik (beräkningsbiologi)
Identifikatorer
URN: urn:nbn:se:kth:diva-370661ISBN: 978-91-8106-409-4 (tryckt)OAI: oai:DiVA.org:kth-370661DiVA, id: diva2:2002086
Disputation
2025-11-07, F3, Lindstedtvägen 26, Stockholm, 13:00 (Engelska)
Opponent
Handledare
Anmärkning
QC 20250930
2025-09-302025-09-292025-10-14Bibliografiskt granskad
Delarbeten