Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Human Activity Recognition Using Federated Learning
KTH, School of Electrical Engineering and Computer Science (EECS).
2018 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesis
Abstract [en]

Human activity recognition is a classification machine learning task where the goal is to learn which activity is performed by a person in a short period of time, for example 5 seconds. Activities can be of different kind: sitting, standing, walking, running, biking or driving a vehicle. To recognize the activities, a machine learning model is trained on accelerometer and gyroscope sensor data from handheld smart devices, smartphones or smartwatches. State-of-theart deep learning models for human activity recognition use order of gigabyte of sensor data to achieve high accuracy. Training a human activity recognition model in a data center based on data collected from smart devices leads to various implications, such as communication costs of sending training data from devices to the data center and privacy.Federated learning is a distributed machine learning algorithm proposed by Google, where the aim is to address issues of privacy and data collection. It allows to train models locally on mobile devices and average them on a central server towards a single global model. In this work we investigate if federated learning can be used efficiently to train a human activity recognition classifier, while preserving privacy and communication costs. We train two models, a deep neural network and a softmax regression with federated learning, and compare them in terms of accuracy to same models trained using centralized approach, where sensor data is sent to a data center to build models. In performed experiments we use 3 different sensor data distributions among clients in federated learning. Non-independent non-identically distributed and unbalanced, which is close to sensor data collected from real world, and two simulated distributions, uniformly distributed and skewed. We study communication costs of the federated learning and how erroneous clients with corrupted data affect the federated learning.We find that federated learning is capable of producing models with slightly worse accuracy, compared to centralized models. For training of the deep neural network with non representative distributions on the clients, federated learning achieved an accuracy of 87 % compared to 93 % in centralized training. We point out that the global model produced in federated learning is capable of achieving a good accuracy even for clients with skewed distributions. We justify that having clients with corrupted data are an open issue of the algorithm and propose a solution for this issue based on rejection of erroneous clients. Lastly, we identify communication costs for uploading local models

from each client and compare them to the size of clients’ data

Abstract [sv]

Igenkänning av mänskliga aktiviteter är ett maskininlärningsproblem där målet är att lära vilken aktivitet är genomförd av en viss individ per tidsenhet, exempelvis 5 sekunder. Aktiviteter kan vara av olika slag, exempelvis att en person sitter, står, promenerar, springer, cyklar eller kör en bil. För att känna igen aktiviteterna, tränas en maskininlärningsmodell på accelerometer och gyroskop data från olika mobila enheter som smarttelefon eller smartklocka. För att känna igen mänskliga aktiviteter, de bästa modellerna för att prediktera mänskliga aktiviteter bygger på djupinlärning och använder order av gigabyte data från mobila sensorer, för att uppnå hög noggrannhet. Träning av en maskininlärningsmodell för igenkänning av mänskliga aktiviteter som utförs i en datahall med data samlat från mobila klienter leder till olika konsekvenser för användare, såsom kostnader för att kommunicera data till datahallen eller användarens integritet.Federeradinlärning är en distribuerad maskininlärning algoritm föreslagen av Google, där målet är att behålla användarens integritet och minska datakostnader. Algoritmen tillåter att träna många lokala modeller på klienter och summera dessa för att uppnå en global modell. I denna studie utforskar vi ifall federeradinlärning kan effektivt användas för att träna modeller för igenkänning av mänskliga aktiviteter, med åtanke för användarens integritet och kommunikationskostnader. Vi tränar två olika modeller med federeradinlärning, ett djupt neuralt nätverk och softmax regression, som vi jämför, med hjälp av noggrannhet, med modeller tränade på centraliserat sätt, där data är skickat till en datahall. I utförda experiment använder vi 3 olika sensor datadistributioner. Icke-oberoende icke-likafördelade och obalanserade som är närmst till sensor data samlat från riktig värld, och två simulerade datadistributioner likformig och skev. Vi studerar kommunikationskostnader av federeradinlärning och hur felaktiga klienter med korrupt data påverkar federeradinlärning.Vi upptäcker att federeradinlärning är en kapabel metod för att producera maskininlärning modeller med något sämre noggrannhet, i jämförelse med modeller tränade på centraliserad sätt. För träning utav djupt neuralt nätverk med icke-representativa distributioner på klienter, fick federeradinlärning 87 % noggrannhet i jämförelse med 93 % i centraliserad träning. Vi påpekar att den globala modellen producerad från federeradinlärning kan uppnå en bra

noggrannhet även för klienter med skeva distributioner. Vi rättfärdiggör att klienter med felaktiga data är en öppen fråga i algoritmen och föreslår en lösning baserad på den lokala noggrannheten på varje klient. Slutligen identifierar vi kommunikationskostnader för klienter som skickar sina modeller och jämför dessa mot storlek av klienters data.

Place, publisher, year, edition, pages
2018. , p. 58
Series
TRITA-EECS-EX ; 2018:102
National Category
Electrical Engineering, Electronic Engineering, Information Engineering
Identifiers
URN: urn:nbn:se:kth:diva-251811OAI: oai:DiVA.org:kth-251811DiVA, id: diva2:1317211
Subject / course
Electrical Engineering
Educational program
Master of Science - Distributed Computing
Supervisors
Examiners
Available from: 2019-05-22 Created: 2019-05-22 Last updated: 2019-05-22Bibliographically approved

Open Access in DiVA

No full text in DiVA

By organisation
School of Electrical Engineering and Computer Science (EECS)
Electrical Engineering, Electronic Engineering, Information Engineering

Search outside of DiVA

GoogleGoogle Scholar

urn-nbn

Altmetric score

urn-nbn
Total: 42 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf