Open this publication in new window or tab >>2025 (English)Doctoral thesis, monograph (Other academic)
Abstract [en]
Scale has been an essential driver of progress in recent machine learning research. Data sets and computing resources have grown rapidly, complemented by models and algorithms capable of leveraging these resources. However, in many important applications, there are two limits to such data collection. First, data is often locked in silos, and cannot be shared. This is common in the medical domain, where patient data is controlled by different clinics. Second, machine learning models are prone to memorization. Therefore, when dealing with sensitive data, it is often desirable to have formal privacy guarantees to ensure that no sensitive information can be reconstructed from the trained model.
The topic of this thesis is the design of machine learning algorithms that adhere to these two restrictions: to operate on decentralized data and to satisfy formal privacy guarantees. We study two broad categories of machine learning algorithms for decentralized data: federated learning and ensembling of local models. Federated learning is a form of machine learning in which multiple clients collaborate during training via the coordination of a central server. In ensembling of local models, each client first trains a local model on its own data, and then collaborates with other clients during inference. As a formal privacy guarantee, we consider differential privacy, which is based on introducing artificial noise to ensure membership privacy. Differential privacy is typically applied to federated learning by adding noise to the model updates sent to the server, and to ensembling of local models by adding noise to the predictions of the local models.
Our research addresses the following core areas in the context of privacy-preserving machine learning with decentralized data: First, we examine the implications of data dimensionality on privacy for ensembling of medical image segmentation models. We extend the classification algorithm Private Aggregation of Teacher Ensembles (PATE) to high-dimensional labels, and demonstrate that dimensionality reduction can improve the privacy-utility trade-off. Second, we consider the impact of hyperparameter selection on privacy. Here, we propose a novel adaptive technique for hyperparameter selection in differentially private gradient descent; as well as an adaptive technique for federated learning with non-smooth loss functions. Third, we investigate sampling-based solutions to scale differentially private machine learning to datasets with a large number of data points. We study the privacy-enhancing properties of importance sampling and find that it can outperform uniform sub-sampling not only in terms of sample efficiency but also in terms of privacy. Fourth, we study the problem of systematic label shift in ensembling of local models. We propose a novel method based on label clustering to enable flexible collaboration at inference time.
The techniques developed in this thesis improve the scalability and locality of machine learning while ensuring robust privacy protection. This constitutes progress on the goal of a safe application of machine learning to large and diverse data sets for medical image analysis and similar domains.
Abstract [sv]
Skalning har varit en avgörande drivkraft för framsteg inom den senaste maskininlärningsforskningen. Datamängder och beräkningsresurser har vuxit kraftigt och i takt med detta modeller och algoritmer som kan utnyttja dessa. Dock finns det i många viktiga tillämpningar två begränsningar för datainsamling. För det första finns data ofta bakom lås och kan inte delas mellan aktörer. Detta är vanligt inom medicinområdet, där patientdata kontrolleras av olika kliniker. För det andra är maskininlärningsmodeller benägna att memorera. När det gäller känsliga data är det därför ofta önskvärt att ha formella integritetsgarantier för att säkerställa att ingen känslig information kan rekonstrueras från tränade modeller.
Ämnet för denna avhandling är utformningen av maskininlärningsalgoritmer som anpassar sig till dessa två begränsningar: att fungera på decentraliserade data och att uppfylla formella integritetsgarantier. Vi studerar två breda kategorier av maskininlärningsalgoritmer för decentraliserade data: federerad inlärning och ensemblemetoder för lokala modeller. I federerad inlärning samarbetar flera klienter under träningen, samordnade av en central server. I ensemblemetoder för lokala modeller tränar varje klient först en lokal modell på sina egna data och samarbetar sedan med andra klienter under inferens. Som en formell integritetsgaranti använder vi differentiell integritet, som bygger på att lägga till artificiellt brus för att säkerställa medlemsintegritet. Differentiell integritet tillämpas vanligtvis på federerad inlärning genom att lägga till brus i modelluppdateringarna som skickas till servern, och på ensemblemetoder för lokala modeller genom att lägga till brus i förutsägelserna från de lokala modellerna.
Vår forskning behandlar följande kärnområden inom ramen för skalbar, integritetsbevarande maskininlärning: För det första undersöker vi implikationerna av datadimensionalitet på integriteten i samband med ensemblemetoder för medicinsk bildsegmentering. Vi utvidgar klassificeringsalgoritmen Private Aggregation of Teacher Ensembles (PATE) för att hantera högdimensionella etiketter, och visar att dimensionsreduktion kan förbättra avvägningen mellan integritet och nytta. För det andra beaktar vi hur valet av hyperparametrar påverkar integriteten. Här föreslår vi en ny adaptiv teknik för hyperparameterinställning i differentiellt privat gradientnedstigning, samt en adaptiv teknik för federerad inlärning med icke-släta förlustfunktioner. För det tredje undersöker vi samplingbaserade lösningar för att skala differentiellt privat maskininlärning till datamängder med ett stort antal poster. Vi studerar de integritetsförbättrande egenskaperna hos viktad sampling, och framhåller att den inte bara kan överträffa likformig underprovtagning vad gäller samplingeffektivitet, utan även integritet. För det fjärde studerar vi problemet med systematiska etikettsskillnader i ensemblemetoder för lokala modeller. Vi föreslår en ny metod baserad på etikettklustring för att möjliggöra flexibel samarbetevid inferens.
Teknikerna som utvecklats i denna avhandling förbättrar skalbarheten och lokaliteten hos maskininlärning samtidigt som robust integritetsskydd säkerställs. Detta utgör framsteg mot målet att säkert tillämpa maskininlärning på stora och mångsidiga datamängder för medicinsk bildanalys och liknande områden.
Place, publisher, year, edition, pages
Stockholm: KTH Royal Institute of Technology, 2025. p. x, 140
Series
TRITA-EECS-AVL ; 2025:66
Keywords
Machine Learning, Privacy, Differential Privacy, Dimensionality Reduction, Image Segmentation, Hyperparameter Selection, Adaptive Optimization, Privacy Amplification, Importance Sampling, Maskininlärning, Dataskydd, Differentiell Integritet, Dimensionsreducering, Bildsegmentering, Hyperparameterurval, Adaptiv Optimering, Integritetsförstärkning, Importance Sampling
National Category
Computer Sciences
Research subject
Computer Science
Identifiers
urn:nbn:se:kth:diva-363514 (URN)978-91-8106-309-7 (ISBN)
Public defence
2025-06-11, https://kth-se.zoom.us/j/69506042503, D3, Lindstedtsvägen 9, Stockholm, 10:00 (English)
Opponent
Supervisors
Funder
Wallenberg AI, Autonomous Systems and Software Program (WASP), 3309
Note
QC 20250519
2025-05-192025-05-192025-06-30Bibliographically approved