Privacy-Preserving Synthetic Data Generation using Pointwise Maximal Leakage: MSc Thesis in collaboration with SEBx
2024 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE credits
Student thesisAlternative title
Integritetsbevarande Generering av Syntetisk Data med hjälp av Punktvis Maximalt Läckage (Swedish)
Abstract [en]
Generative AI and synthetic data generation have gained significant popularity in recent years, driven by advancements like ChatGPT and image/audio generation models. However, these models risk leaking sensitive personal information from their training data. Financial institutions, such as SEB, wish to use synthetic data generation models but cannot risk any privacy breaches of their customers’ sensitive data. Differential Privacy (DP) is a commonly used privacy measure that protects individuals in a dataset by adding noise and introducing randomization. In this thesis, PML-Bayes, a privacy-preserving synthetic tabular data generation algorithm, is developed using an alternative privacy measure called Pointwise Maximal Leakage (PML). Unlike DP, PML is an information-theoretic privacy measure that can introduce less randomization by exploiting prior knowledge. PML-Bayes is inspired by PrivBayes, an existing algorithm that captures probabilistic characteristics using Bayesian networks. This thesis aims to compare both of these algorithms that use different privacy measures. The algorithms are compared based on their ability to generate good quality synthetic tabular data, evaluated through classification accuracy and total variation distance. The results demonstrate that PML-Bayes can generate datasets with higher accuracy and lower total variation distance compared to PrivBayes. These findings suggest that PML can also be applied to generate other data formats, such as time-series data, or in different applications like privacy-preserving machine learning and federated learning.
Abstract [sv]
Generativ AI och generering av syntetisk data har vunnit stor popularitet under de senaste åren, drivet av framsteg som ChatGPT och modeller för bild- och ljudgenerering. Dessa modeller riskerar dock att läcka känslig personlig information från träningsdatan. Finansiella institutioner, som SEB, behöver modeller för generering av syntetisk data men kan inte riskera att deras kunders känsliga data läcker ut. Differential Privacy (DP) är ett vanligt förekommande integritetsmått som skyddar individer i ett dataset genom att lägga till brus och införa randomisering. I den här avhandlingen utvecklas PML-Bayes, en integritetsbevarande algoritm för generering av syntetisk tabelldata, med hjälp av ett alternativt integritetsmått som kallas Pointwise Maximal Leakage (PML). Till skillnad från DP är PML ett informationsteoretiskt integritetsmått som kan införa mindre randomisering genom att utnyttja tidigare kunskap. PML-Bayes är inspirerat av PrivBayes, en befintlig algoritm som fångar probabilistiska egenskaper med hjälp av ett Bayesiskt nätverk. Denna avhandling syftar till att jämföra båda dessa algoritmer som använder olika sekretessmått. Algoritmerna jämförs utifrån deras förmåga att generera syntetisk tabelldata av god kvalitet, vilket utvärderas genom klassificeringsnoggrannhet och totalt variationsavstånd. Resultaten visar att PML-Bayes kan generera dataset med högre noggrannhet och lägre totalt variationsavstånd jämfört med PrivBayes. Dessa resultat tyder på att PML även kan användas för att generera andra dataformat, t.ex. tidsseriedata, eller i olika tillämpningar som integritetsbevarande maskininlärning och federerad inlärning.
Place, publisher, year, edition, pages
2024. , p. 71
Series
TRITA-EECS-EX ; 2024:679
Keywords [en]
Data privacy, Synthetic data, Information leakage, Bayesian networks, Differential privacy, Pointwise maximal leakage
Keywords [sv]
Dataintegritet, Syntetisk data, Informationsläckage, Bayesiskt nätverk, Differentiell integritet, Punktvis maximalt läckage
National Category
Electrical Engineering, Electronic Engineering, Information Engineering
Identifiers
URN: urn:nbn:se:kth:diva-356145OAI: oai:DiVA.org:kth-356145DiVA, id: diva2:1911803
External cooperation
SEBx
Supervisors
Examiners
2025-01-202024-11-082025-01-20Bibliographically approved