Developing a mobile eye tracking solution using transfer learning
2021 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE credits
Student thesis
Abstract [en]
Gaze estimation, or eye- tracking, has a multitude of possible beneficial applications, such as help with device interaction and literacy testing which can increase access to technology and equality in education. Whereas most current methods are invasive and/or use expensive, task-specific equipment, the greatest benefits would be achieved with an inexpensive solution using widely available hardware. Recent studies have experimented with Convolutional Neural Networks (CNNs) and achieved promising results, nearing the performance of the other approaches. Limited efforts have gone into experimenting with transfer learning in the gaze estimation domain. This study investigates its use by determining if a model pretrained on a large, available-for-research dataset gathered on mobile phones and tablets can improve the performance on a small dataset with devices of newer generations. The results of the experiments show that there is a small though likely insignificant benefit in using transfer learning over training a model from scratch on the small dataset. The best model’s predictions are on average approximately 3 millimetres closer to the true values than the model trained from scratch on the small dataset (2.81 vs. 3.11 cm error). The best performance is achieved by pretraining on data that contains the same type of device as in the small dataset, but not necessarily target domain (in the case of this study, meaning the orientation of the device).
Abstract [sv]
Ögonrörelsemätning, eller ögonspårning, bidrar till en mängd positiva tillämpningar, som till exempel ökad tillgänglighet genom ögonstyrning och jämlikhet i utbildning genom bättre utvärderingsmetoder. Medan de flesta nuvarande metoder är invasiva och /eller använder dyr, uppgiftsspecifik utrustning, skulle de största fördelarna uppnås med en billig lösning med hjälp av allmänt tillgänglig hårdvara. Nyligen genomförda studier har experimenterat med konvolutionella neurala nätverk (CNN) på bilder från mobilkameror och uppnått lovande resultat som närmar sig prestandan hos befintliga metoder. Få studier har däremot undersökt möjligheten till överföringsinlärning (“Transfer Learning”) för denna tillämpning. Denna studie undersöker detta genom att avgöra om en modell som är förtränad på en stor datamängd som samlats in på mobiltelefoner och surfplattor kan förbättra prestandan på en modell tränad på en liten datamängd med enheter från nyare generationer. Resultaten av experimenten visar att det finns en liten, men troligen försumbar, fördel med att använda överföringsinlärning jämfört med träning av en modell från grunden på en liten datamängd. Den bästa modellens förutsägelser är i genomsnitt 3 millimeter närmare de sanna värdena än modellen som tränas från grunden på den lilla datamängden (2,81 vs. 3,11 cm fel). Den bästa prestandan uppnås genom förträning på data som innehåller samma typ av enhet som i den lilla datamängden, men inte nödvändigtvis på enheter med samma orientering.
Place, publisher, year, edition, pages
2021. , p. 54
Series
TRITA-EECS-EX ; 2021:722
Keywords [en]
Thesis, Computer Vision, Eye Tracking, Transfer Learning, Gaze Estimation
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-305274OAI: oai:DiVA.org:kth-305274DiVA, id: diva2:1614187
External cooperation
Lexplore AB
Supervisors
Examiners
2021-11-252021-11-242022-06-25Bibliographically approved