kth.sePublications
Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Privacy preserving behaviour learning for the IoT ecosystem
KTH, School of Electrical Engineering and Computer Science (EECS), Computer Science, Software and Computer systems, SCS.ORCID iD: 0000-0002-4088-8070
2021 (English)Doctoral thesis, monograph (Other academic)
Abstract [en]

IoT has enabled the creation of a multitude of personal applications and services for a better understanding and improvement of urban environments and our personal lives. These services are driven by the continuous collection and analysis of sensitive and private user data to provide personalised experiences. Among the different application areas of IoT, smart health care, in particular, necessitates the usage of privacy preservation techniques in order to guarantee protection from user privacy-breaching threats such as identification, profiling, localization and tracking, and information linkage. Traditional privacy preservation techniques such as pseudonymization are no longer sufficient to cater to the requirements of privacy preservation in the fast-growing smart health care domain due to the challenges offered by big data volume, velocity, and variety. On the other hand, there is a number of modern privacy preservation techniques with respective overheads that may have a negative impact on application performance such as reduced accuracy, reduced data utility, and increased device resource usage. There is a need to select appropriate privacy preservation techniques (and solutions) according to the nature of data, system performance requirements, and resource constraints, in order to find proper trade-offs between providing privacy preservation, data utility, and acceptable system performance in terms of accuracy, runtime, and resource consumption.

In this work, we investigate different privacy preservation solutions and measure the impact of introducing our selected privacy preservation solutions on the performance of different components of the IoT ecosystem in terms of data utility and system performance. We implement, illustrate, and evaluate the results of our proposed approaches using real-world and synthetic privacy-preserving smart health care datasets. First, we provide a detailed taxonomy and analysis of the privacy preservation techniques and solutions which may serve as a guideline for selecting appropriate techniques according to the nature of data and system requirements. Next, in order to facilitate privacy preserving data sharing, we present and implement a method for creating realistic synthetic and privacy-preserving smart health care datasets using Generative Adversarial Networks and Differential Privacy. Later, we also present and develop a solution for privacy preserving data analytics, a differential privacy library PyDPLib, with health care data as a use case.

In order to find proper trade-offs between providing necessary privacy preservation, device resource consumption, and application accuracy, we present and implement a novel approach with corresponding algorithms and an end-to-end system pipeline for reconfigurable data privacy in machine learning on resource-limited computing devices. Our evaluation results show that, while providing the required level of privacy, our proposed approach allows us to achieve up to 26.21% memory, 16.67% CPU instructions, and 30.5% of network bandwidth savings as compared to making all the data private. Moreover, we also present and implement an end-to-end solution for privacy-preserving time-series forecasting of user health data streams using Federated Learning and Differential Privacy. Our proposed solution finds a proper trade-off between providing necessary privacy preservation, application accuracy, and runtime, and at best introduces a decrease of ~2% in the prediction accuracy of the trained models.

Abstract [sv]

IoT har möjliggjort skapandet av en mängd personliga applikationer och tjänster för en bättre förståelse och förbättring av stadsmiljöer och våra personliga liv. Dessa tjänster drivs av kontinuerlig insamling och analys av känslig och privat användardata för att ge personliga upplevelser. Bland de olika applikationsom- rådena för IoT, kräver i synnerhet smart hälsovård användningen av tekniker för bevarande av integritet för att garantera skydd mot användarnas integritetsintrång, såsom identifiering, profilering, lokalisering och spårning och informationskopp- ling. Traditionella tekniker för bevarande av integritet som pseudonymisering är inte längre tillräckliga för att tillgodose kraven på bevarande av integritet i den snabbväxande smarta hälsovårdsdomänen på grund av de utmaningar som stora datamängder, hastighet och variation forcerar. Å andra sidan finns det ett antal moderna tekniker för bevarande av integritet med respektive omkostnader som kan ha en negativ inverkan på applikationsprestanda såsom minskad noggrannhet, minskad datanytta och ökad resursanvändning på enheten. Det finns ett behov av att välja lämpliga sekretessskyddstekniker (och lösningar) i enlighet med datas natur, systemprestandakrav och resursbegränsningar, för att hitta korrekta avvägning- ar mellan tillhandahållande av integritetsbevarande, dataverktyg och acceptabel systemprestanda i form av av noggrannhet, körtid och resursförbrukning.

I detta arbete undersöker vi olika lösningar för bevarande av integritet och mäter effekten av att introducera våra utvalda lösningar för bevarande av integritet på prestandan hos olika komponenter i IoT-ekosystemet när det gäller datanytta och systemprestanda. Vi implementerar, illustrerar och utvärderar resultaten av våra föreslagna tillvägagångssätt med hjälp av verkliga och syntetiska integritets- bevarande smarta hälsodatauppsättningar. Först tillhandahåller vi en detaljerad taxonomi och analys av tekniker och lösningar för bevarande av integritet som kan fungera som en riktlinje för att välja lämpliga tekniker i enlighet med typen av data och systemkrav. Därefter, för att underlätta integritetsbevarande datadelning, presenterar och implementerar vi en metod för att skapa realistiska syntetiska och integritetsbevarande smarta hälsovårdsdatauppsättningar med hjälp av Ge- nerative Adversarial Networks och Differential Privacy. Senare presenterar och utvecklar vi också en lösning för integritetsbevarande dataanalys, ett differentiellt integritetsbibliotek PyDPLib, med sjukvårdsdata som ett användningsfall.

För att hitta korrekta avvägningar mellan tillhandahållande av nödvändig integri- tetsbevarande, enhetsresursförbrukning och applikationsnoggrannhet presenterar och implementerar vi ett nytt tillvägagångssätt med motsvarande algoritmer och en end-to-end systempipeline för omkonfigurerbar datasekretess i maskininlärning på resursbegränsade datorenheter. Våra utvärderingsresultat visar att, samtidigt som vi tillhandahåller den nödvändiga integritetsnivån, tillåter vårt föreslagna tillvägagångssätt oss att uppnå upp till 26,21% minne, 16,67% CPU-instruktioner och 30,5% av besparingar på nätverkets bandbredd jämfört med att göra all datasammanfattning viiprivat. Dessutom presenterar och implementerar vi också en helhetslösning för integritetsbevarande tidsserieprognoser för användarhälsodataströmmar med hjälp av Federated Learning och Differential Privacy. Vår föreslagna lösning finner en lämplig avvägning mellan att tillhandahålla nödvändig integritetsbevarande, ap- plikationsnoggrannhet och körtid, och introducerar i bästa fall en minskning med ≈ 2% i prediktionsnoggrannheten för de tränade modellerna.

Place, publisher, year, edition, pages
Stockholm: KTH Royal Institute of Technology, 2021. , p. 142
Series
TRITA-EECS-AVL ; 78
Keywords [en]
Internet of things, big data, privacy, smart health care, machine learning, synthetic data generation, generative adversarial networks, time-series data, distributed machine learning
National Category
Computer Systems
Research subject
Information and Communication Technology
Identifiers
URN: urn:nbn:se:kth:diva-305189ISBN: 978-91-8040-067-1 (print)OAI: oai:DiVA.org:kth-305189DiVA, id: diva2:1613752
Public defence
2021-12-17, https://kth-se.zoom.us/meeting/register/u5Ysd-qurj4sGdEM-l9Si4c93uwsoh2iKBG8, Sal C, Electrum, Kistagången 16, Kista, 14:00 (English)
Opponent
Supervisors
Note

This work was supported by the Erasmus Mundus Joint Doctorate in Distributed Computing (EMJD-DC) funded by the Education, Audiovisual and Culture Executive Agency (EACEA) of the European Commission under the FPA 2012-0030, and FoFu at KTH.

QC 20211123

Available from: 2021-11-23 Created: 2021-11-23 Last updated: 2023-03-06Bibliographically approved

Open Access in DiVA

Privacy preserving behaviour learning for the IoT ecosystem(3901 kB)1337 downloads
File information
File name FULLTEXT01.pdfFile size 3901 kBChecksum SHA-512
194c88ab0282dd92763654db9abd4040e76307974b018da91929dd1c6408f5f323259e208b8d934db5d64873f7277977cc03acff94759f9421d39048ae785ddf
Type fulltextMimetype application/pdf

Authority records

Imtiaz, Sana

Search in DiVA

By author/editor
Imtiaz, Sana
By organisation
Software and Computer systems, SCS
Computer Systems

Search outside of DiVA

GoogleGoogle Scholar
Total: 1338 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

isbn
urn-nbn

Altmetric score

isbn
urn-nbn
Total: 1715 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf