kth.sePublications
Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Smooth Sensitivity for Learning Differentially-Private yet Accurate Rule Lists: Differential Privacy for Learning Rule Lists
KTH, School of Electrical Engineering and Computer Science (EECS).
2024 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesisAlternative title
Smidig känslighet för inlärning differentiellt-privata men ändå exakta regellistor : Differentiell integritet för inlärningsregellistor (Swedish)
Abstract [en]

The risks induced by AI are not solely intrinsic to the model as illintentioned actors might try to extract from the model more information than it was designed to provide, namely individuals’ personal information. Differentially-private (DP) mechanisms can be embedded into the design of a machine learning algorithm to protect the resulting model against privacy leakage, although this often comes with a significant loss of accuracy. This concession leads to defining a privacy budget to smartly allocate across all the model’s computations. The main focus of this thesis is differential privacy implemented to Rule Lists models, a particular kind of interpretable models. Interpretable models offer a trade-off between automate decision and transparency that black-box models cannot provide. We aim at implementing differential privacy for Rule Lists models and optimize the accuracy/privacy trade-off. We decide to study a greedy rule list model which is the core part of this thesis. We establish the smooth sensitivity of the Gini impurity and leverage it to propose a DP greedy rule list algorithm. In particular, our theoretical analysis and experimental results demonstrate that the DP rule lists models integrating smooth sensitivity have higher accuracy that those using other DP frameworks based on global sensitivity. Although Rule List models do not yield state of the art accuracy, the differentially private framework we devise is easily adaptable to tree based models (CART, Random Forests) and it could lead to very promising results.

Abstract [sv]

Maskininlärningsmodeller blir en allt viktigare del av vårt dagliga liv - och de beslut som de fattar i vårt ställe kan skapa misstro när modellens funktion är dold för användaren. Tolkningsbara modeller erbjuder en kompromiss mellan automatiserade beslut och transparens. De risker som AI medför är dock inte enbart inneboende i modellen, eftersom illasinnade aktörer kan försöka utvinna mer information ur modellen än den var avsedd att tillhandahålla, nämligen individers personuppgifter. Differentiellt privata (DP) mekanismer kan integreras i utformningen av en maskininlärningsalgoritm för att skydda den resulterande modellen mot integritetsläckage, även om detta ofta kommer med en betydande förlust av noggrannhet. Denna eftergift leder till att man definierar en integritetsbudget som smart kan fördelas över alla modellens beräkningar. Huvudfokus i denna avhandling är differentiell integritet implementerad i regellistmodeller. Vi strävar efter att implementera differentiell integritet för regellistmodeller och optimera avvägningen mellan noggrannhet och integritet. Vi implementerar först Differential Privacy på CORELS, en certifierat optimal algoritm för inlärning av regellistor. Efter att ha fått nedslående resultat (exponentiell ökning av beräkningstiden, dålig avvägning) bestämmer vi oss för att studera en Greedy Rule List-modell. Vi fastställer den smidiga känsligheten hos Gini-orenheten och utnyttjar den för att föreslå en DP-grådig regellistalgoritm. I synnerhet visar vår teoretiska analys och experimentella resultat att DP-regellistmodellerna som integrerar jämn känslighet har högre noggrannhet än de som använder andra DP-ramar baserade på global känslighet. Även om regellistmodeller inte ger toppmodern noggrannhet, är det differentierat privata ramverk vi utformar lätt att anpassa till trädbaserade modeller (CART, Random Forests) och det kan leda till mycket lovande resultat.

Abstract [fr]

Les modèles d’apprentissage automatique prennent une place de plus en plus importante dans notre vie quotidienne – et les décisions qu’ils prennent à notre place peuvent générer de la méfiance lorsque le fonctionnement du modèle est caché à l’utilisateur. Les modèles interprétables offrent un compromis entre décision automatisée et transparence. Cependant, les risques induits par l’IA ne sont pas uniquement intrinsèques au modèle, puisque des acteurs mal intentionnés pourraient tenter d’extraire du modèle plus d’informations que ce qu’il a été conçu pour fournir, à savoir des données personnelles sur les individus. Des mécanismes de confidentialité différentielle (DP) peuvent être intégrés dans la conception d’un algorithme d’apprentissage automatique pour protéger le modèle généré contre les fuites de confidentialité, bien que cela s’accompagne souvent d’une perte de précision significative. Cette concession conduit à définir un budget de confidentialité à répartir intelligemment sur tous les calculs du modèle. L’objectif principal de cette thèse est la confidentialité différentielle implémentée dans les modèles de listes de règles. Nous visons à mettre en oeuvre les modèles de confidentialité différentielle pour les listes de règles et à optimiser le compromis précision/confidentialité. Nous implémentons d’abord la confidentialité différentielle sur CORELS, un algorithme certifié optimal pour l’apprentissage des listes de règles. Après avoir obtenu des résultats décevants (augmentation exponentielle du temps de calcul, faible précision), nous décidons d’étudier un modèle de greedy rule list. Nous établissons la sensibilité lissée de l’impureté Gini et l’exploitons pour proposer un algorithme de liste de règles gloutons DP. En particulier, notre analyse théorique et nos résultats expérimentaux démontrent que les modèles de listes de règles DP intégrant une sensibilité lissée ont une précision plus élevée que ceux utilisant d’autres cadres DP basés sur la sensibilité globale. Bien que les modèles de liste de règles ne fournissent pas une précision de pointe, le canevas de confidentialité différentielle que nous concevons est facilement adaptable aux modèles arborescents (CART, Random Forests) et pourrait conduire à des résultats très prometteurs.

Place, publisher, year, edition, pages
2024. , p. 62
Series
TRITA-EECS-EX ; 2024:860
Keywords [en]
Differential Privacy, Rule Lists Algorithms, Interpretable Models, Machine Learning
Keywords [fr]
Confidentialité Différentielle, Algorithmes de Listes de Règles, Modèles Interprétables, Machine Learning
Keywords [sv]
Differentiell Integritet, Algoritmer för Regellistor, Tolkbara Modeller, Maskininlärning
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-360670OAI: oai:DiVA.org:kth-360670DiVA, id: diva2:1941515
External cooperation
LAAS-CNRS
Supervisors
Examiners
Available from: 2025-03-06 Created: 2025-02-28 Last updated: 2025-03-06Bibliographically approved

Open Access in DiVA

fulltext(1480 kB)24 downloads
File information
File name FULLTEXT02.pdfFile size 1480 kBChecksum SHA-512
4b0c5d1d2bd51668b2b2354627007bda4e227a0a7ebcb00f090429c452171a38c196cf705a9804449420f521234cc954253ea0a29559354661b8ed366f813691
Type fulltextMimetype application/pdf

By organisation
School of Electrical Engineering and Computer Science (EECS)
Computer and Information Sciences

Search outside of DiVA

GoogleGoogle Scholar
Total: 24 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 376 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf