kth.sePublications
Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Establishing a CNN-Based Real-Time Engagement Evaluation Model for Actionable User Feedback
KTH, School of Engineering Sciences (SCI), Mathematics (Dept.), Mathematics (Div.).
2024 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesis
Abstract [en]

In recent years, Human-Computer Interaction (HCI) techniques, notably through gamification, is widely used in educational settings. With latest technological development, Fictive Reality is using Artifical Intellegence (AI), especially Large Language Models (LLMs), combined with computer animation, to create highly interactive avatars that enhances educational and training experiences.

Engagement level, which reflects the attention and focus of the learner during educational activities, is used to measure the effectiveness of the learning process. Fictive Reality is hence seeking to develop an actionable feedback model that can provide precise and timely feedback on engagement level during user sessions from the webcam video input.

It is a common approach in image analysis to develop a machine learning model based in Convolutional Neural Network (CNN). In this thesis, we propose the development and training of a CNN based model and apply it to actual problems.

The e-drishti WACV 2026 dataset is used, and data processing techniques including data augmentation are applied to it. Three models based on CNN architectures are trained on both augmented and unaugmented datasets, including AlexNet, MobileNetV3 and ResNet, using adam optimizer and categorical cross entropy loss function, which altogether six models are obtained. The highest accuracy is 62.9%, and is obtained by the model bosed on AlexNet trained on the unaugmented dataset. The models are then tested on the dataset provided by Fictive Reality. The highest accuracy is 49%, and is achieved by the model based on MobileNetV3 trained on the unaumented dataset.

Future work would be to improve the current models, for instance, deepening the neural networks, and apply better data processing techniques.

Abstract [sv]

Under de senaste åren har tekniker inom människa-datorinteraktion (HCI), särskilt genom spelifiering, använts i stor utsträckning i utbildningsmiljöer. Med den senaste teknologiska utvecklingen använder Fictive Reality artificiell intelligens (AI), särskilt stora språkmodeller (LLMs), i kombination med datoranimering för att skapa högst interaktiva avatarer som förbättrar utbildnings- och träningsupplevelser.

Engagemangsnivå, som återspeglar elevens uppmärksamhet och fokus under utbilningsaktiviteter, används för att mäta inlärningsprocessens effektivitet. Fictive Reality strävar därför efter att uveckla en handlingsbar återkopplingsmodell som kan ge exakt och snabb feedback på engagemangsnivån under användarsessioner från webbkamerans videoinmatning.

En vanlig metod inom bildanalys för att utveckla en maskininlärningsmodell är att uveckla en modell baserad på konvolutionella neurala nätverk (CNN). I denna avhandling föreslår vi utveckling och träning av en CNN-baserad modell och tillämpning av den på verkliga problem.

E-drishti WACV 2016-datasetet används, och databehandlingstekniker inklusive dataförstärkning tillämpas på det. Tre modeller baserade på CNN-arkitekturer tränas på både förstärkta och oförstärkta dataset, inklusive AlexNet, MovileNetV3 och ResNet, med användning av adam-optimerare och kategorisk korsentropiförlustfunktion, vilket resulterar i totalt sex modeller.

Den högsta noggrannheten är 62,9%, och uppnås av modellen baserad på AlexNet tränad på det oförstärkta datasetet. Modellerna testas sedan på datasetet tillhandahållet av Fictive Reality. Den högsta noggrannheten är 49% och uppnås av modellen baserad på MobileNetV3 tränad på det oförstärkta datasetet.

Framtida arbete skulle vara att förbättra de nuvarande modellerna genom att exempelvis fördjupa de neurala nätverken och tillämpa bättre databehandlingstekniker.

Place, publisher, year, edition, pages
2024. , p. 45
Series
TRITA-SCI-GRU ; 2024:357
Keywords [en]
Engagement, Convolutional Neural Network, image analysis, data augmentation
Keywords [sv]
Engagemang, konvolutionellt neuralt nätverk, bildanalys, dataförstärkning
National Category
Other Mathematics
Identifiers
URN: urn:nbn:se:kth:diva-362665OAI: oai:DiVA.org:kth-362665DiVA, id: diva2:1953848
External cooperation
Fictive Reality
Subject / course
Mathematical Statistics
Educational program
Master of Science - Applied and Computational Mathematics
Supervisors
Examiners
Available from: 2025-04-28 Created: 2025-04-23 Last updated: 2025-04-28Bibliographically approved

Open Access in DiVA

fulltext(992 kB)22 downloads
File information
File name FULLTEXT01.pdfFile size 992 kBChecksum SHA-512
20bb9dafca04f1115622455afa52d4af67cf3de53a40814f3fc9e20b6a17281e72ee554ccdd6cad4068f4949d681804053c1464ab9381d20a30d5b446387ee7e
Type fulltextMimetype application/pdf

By organisation
Mathematics (Div.)
Other Mathematics

Search outside of DiVA

GoogleGoogle Scholar
Total: 22 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 238 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf