kth.sePublications KTH
Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Privacy-Preserving Synthetic Data Generation using Pointwise Maximal Leakage: MSc Thesis in collaboration with SEBx
KTH, School of Electrical Engineering and Computer Science (EECS).
2024 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesisAlternative title
Integritetsbevarande Generering av Syntetisk Data med hjälp av Punktvis Maximalt Läckage (Swedish)
Abstract [en]

Generative AI and synthetic data generation have gained significant popularity in recent years, driven by advancements like ChatGPT and image/audio generation models. However, these models risk leaking sensitive personal information from their training data. Financial institutions, such as SEB, wish to use synthetic data generation models but cannot risk any privacy breaches of their customers’ sensitive data. Differential Privacy (DP) is a commonly used privacy measure that protects individuals in a dataset by adding noise and introducing randomization. In this thesis, PML-Bayes, a privacy-preserving synthetic tabular data generation algorithm, is developed using an alternative privacy measure called Pointwise Maximal Leakage (PML). Unlike DP, PML is an information-theoretic privacy measure that can introduce less randomization by exploiting prior knowledge. PML-Bayes is inspired by PrivBayes, an existing algorithm that captures probabilistic characteristics using Bayesian networks. This thesis aims to compare both of these algorithms that use different privacy measures. The algorithms are compared based on their ability to generate good quality synthetic tabular data, evaluated through classification accuracy and total variation distance. The results demonstrate that PML-Bayes can generate datasets with higher accuracy and lower total variation distance compared to PrivBayes. These findings suggest that PML can also be applied to generate other data formats, such as time-series data, or in different applications like privacy-preserving machine learning and federated learning.

Abstract [sv]

Generativ AI och generering av syntetisk data har vunnit stor popularitet under de senaste åren, drivet av framsteg som ChatGPT och modeller för bild- och ljudgenerering. Dessa modeller riskerar dock att läcka känslig personlig information från träningsdatan. Finansiella institutioner, som SEB, behöver modeller för generering av syntetisk data men kan inte riskera att deras kunders känsliga data läcker ut. Differential Privacy (DP) är ett vanligt förekommande integritetsmått som skyddar individer i ett dataset genom att lägga till brus och införa randomisering. I den här avhandlingen utvecklas PML-Bayes, en integritetsbevarande algoritm för generering av syntetisk tabelldata, med hjälp av ett alternativt integritetsmått som kallas Pointwise Maximal Leakage (PML). Till skillnad från DP är PML ett informationsteoretiskt integritetsmått som kan införa mindre randomisering genom att utnyttja tidigare kunskap. PML-Bayes är inspirerat av PrivBayes, en befintlig algoritm som fångar probabilistiska egenskaper med hjälp av ett Bayesiskt nätverk. Denna avhandling syftar till att jämföra båda dessa algoritmer som använder olika sekretessmått. Algoritmerna jämförs utifrån deras förmåga att generera syntetisk tabelldata av god kvalitet, vilket utvärderas genom klassificeringsnoggrannhet och totalt variationsavstånd. Resultaten visar att PML-Bayes kan generera dataset med högre noggrannhet och lägre totalt variationsavstånd jämfört med PrivBayes. Dessa resultat tyder på att PML även kan användas för att generera andra dataformat, t.ex. tidsseriedata, eller i olika tillämpningar som integritetsbevarande maskininlärning och federerad inlärning.

Place, publisher, year, edition, pages
2024. , p. 71
Series
TRITA-EECS-EX ; 2024:679
Keywords [en]
Data privacy, Synthetic data, Information leakage, Bayesian networks, Differential privacy, Pointwise maximal leakage
Keywords [sv]
Dataintegritet, Syntetisk data, Informationsläckage, Bayesiskt nätverk, Differentiell integritet, Punktvis maximalt läckage
National Category
Electrical Engineering, Electronic Engineering, Information Engineering
Identifiers
URN: urn:nbn:se:kth:diva-356145OAI: oai:DiVA.org:kth-356145DiVA, id: diva2:1911803
External cooperation
SEBx
Supervisors
Examiners
Available from: 2025-01-20 Created: 2024-11-08 Last updated: 2025-01-20Bibliographically approved

Open Access in DiVA

fulltext(988 kB)125 downloads
File information
File name FULLTEXT01.pdfFile size 988 kBChecksum SHA-512
c2f4bd5f43c3e965c02724db0099448e3ad8b1374c8a833b98528057aa1598f7e05267294d42f2447e18c089a2cb20dbe70a2ba0b396d1c494af4fb52cb99d30
Type fulltextMimetype application/pdf

By organisation
School of Electrical Engineering and Computer Science (EECS)
Electrical Engineering, Electronic Engineering, Information Engineering

Search outside of DiVA

GoogleGoogle Scholar
Total: 126 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 1003 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf