Establishing a CNN-Based Real-Time Engagement Evaluation Model for Actionable User Feedback
2024 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE credits
Student thesis
Abstract [en]
In recent years, Human-Computer Interaction (HCI) techniques, notably through gamification, is widely used in educational settings. With latest technological development, Fictive Reality is using Artifical Intellegence (AI), especially Large Language Models (LLMs), combined with computer animation, to create highly interactive avatars that enhances educational and training experiences.
Engagement level, which reflects the attention and focus of the learner during educational activities, is used to measure the effectiveness of the learning process. Fictive Reality is hence seeking to develop an actionable feedback model that can provide precise and timely feedback on engagement level during user sessions from the webcam video input.
It is a common approach in image analysis to develop a machine learning model based in Convolutional Neural Network (CNN). In this thesis, we propose the development and training of a CNN based model and apply it to actual problems.
The e-drishti WACV 2026 dataset is used, and data processing techniques including data augmentation are applied to it. Three models based on CNN architectures are trained on both augmented and unaugmented datasets, including AlexNet, MobileNetV3 and ResNet, using adam optimizer and categorical cross entropy loss function, which altogether six models are obtained. The highest accuracy is 62.9%, and is obtained by the model bosed on AlexNet trained on the unaugmented dataset. The models are then tested on the dataset provided by Fictive Reality. The highest accuracy is 49%, and is achieved by the model based on MobileNetV3 trained on the unaumented dataset.
Future work would be to improve the current models, for instance, deepening the neural networks, and apply better data processing techniques.
Abstract [sv]
Under de senaste åren har tekniker inom människa-datorinteraktion (HCI), särskilt genom spelifiering, använts i stor utsträckning i utbildningsmiljöer. Med den senaste teknologiska utvecklingen använder Fictive Reality artificiell intelligens (AI), särskilt stora språkmodeller (LLMs), i kombination med datoranimering för att skapa högst interaktiva avatarer som förbättrar utbildnings- och träningsupplevelser.
Engagemangsnivå, som återspeglar elevens uppmärksamhet och fokus under utbilningsaktiviteter, används för att mäta inlärningsprocessens effektivitet. Fictive Reality strävar därför efter att uveckla en handlingsbar återkopplingsmodell som kan ge exakt och snabb feedback på engagemangsnivån under användarsessioner från webbkamerans videoinmatning.
En vanlig metod inom bildanalys för att utveckla en maskininlärningsmodell är att uveckla en modell baserad på konvolutionella neurala nätverk (CNN). I denna avhandling föreslår vi utveckling och träning av en CNN-baserad modell och tillämpning av den på verkliga problem.
E-drishti WACV 2016-datasetet används, och databehandlingstekniker inklusive dataförstärkning tillämpas på det. Tre modeller baserade på CNN-arkitekturer tränas på både förstärkta och oförstärkta dataset, inklusive AlexNet, MovileNetV3 och ResNet, med användning av adam-optimerare och kategorisk korsentropiförlustfunktion, vilket resulterar i totalt sex modeller.
Den högsta noggrannheten är 62,9%, och uppnås av modellen baserad på AlexNet tränad på det oförstärkta datasetet. Modellerna testas sedan på datasetet tillhandahållet av Fictive Reality. Den högsta noggrannheten är 49% och uppnås av modellen baserad på MobileNetV3 tränad på det oförstärkta datasetet.
Framtida arbete skulle vara att förbättra de nuvarande modellerna genom att exempelvis fördjupa de neurala nätverken och tillämpa bättre databehandlingstekniker.
Place, publisher, year, edition, pages
2024. , p. 45
Series
TRITA-SCI-GRU ; 2024:357
Keywords [en]
Engagement, Convolutional Neural Network, image analysis, data augmentation
Keywords [sv]
Engagemang, konvolutionellt neuralt nätverk, bildanalys, dataförstärkning
National Category
Other Mathematics
Identifiers
URN: urn:nbn:se:kth:diva-362665OAI: oai:DiVA.org:kth-362665DiVA, id: diva2:1953848
External cooperation
Fictive Reality
Subject / course
Mathematical Statistics
Educational program
Master of Science - Applied and Computational Mathematics
Supervisors
Examiners
2025-04-282025-04-232025-04-28Bibliographically approved