Robust and Intersection-Aware Multi-Human 3D Motion Modeling in Sports Using XMAE
2024 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE credits
Student thesisAlternative title
Stabil och kollisionmedveten fleraktörsbaserad 3D rörelsemodellering inom sport med XMAE (Swedish)
Abstract [en]
This thesis models close interaction between football players. The proposed approach uses a transformer model enhanced with a cross-attention masked auto-encoder (XMAE) framework, integrating multiple loss functions to minimize the intersections between players. The model is evaluated on an in-the-wild football data set that comes from games in the German Bundesliga.
We show that, by adding loss functions, employing efficient sampling, and making careful choices for the loss weights, the intersection volume decreases by 92.056% when prolate spheroids are used to represent the players. With the same model, the number of intersections decreases by 63.163% for the cuboid representations. Hence, we conclude (i) that with an added loss function and fine-tuning, the XMAE model is able to capture the complexities of football players interactions effectively. In addition, we conclude (ii) that while XMAE effectively models these complex interactions, more finely tuned player representations are required to precisely model these scenarios.
Abstract [sv]
Denna avhandling modellerar nära interaktion mellan fotbollsspelare. Den föreslagna metoden använder en transformer-modell som kombineras med ett cross-attention masked auto-encoder (XMAE) ramverk, som integrerar flera förlustfunktioner för att minimera kollisionerna mellan spelarna. Modellen utvärderas på en verklig fotbollsdatamängd med matcher från tyska Bundesliga.
Vi visar att genom att lägga till förlustfunktioner, använda effektiva stickprov och göra noggranna val för förlustvikterna, minskar volymen av kollisioner med 92,056 % när långsmala sfäroider används för att representera spelarna. Med samma modell minskar antalet kollisioner med 63,163 % för kubiska representationer. Därmed drar vi slutsatsen (i) att med en tillagd förlustfunktion och finjustering kan XMAE-modellen effektivt fånga komplexiteten i fotbollsspelarnas interaktioner. Dessutom drar vi slutsatsen (ii) att även om XMAE effektivt modellerar dessa komplexa interaktioner, krävs mer finjusterade spelarrepresentationer för att exakt modellera dessa scenarier.
Place, publisher, year, edition, pages
2024.
Series
TRITA-SCI-GRU ; 2024:449
Keywords [en]
Transformer, XMAE, 3D Pose Estimation, Computer Vision, Close Human Interaction, Supervised Machine Learning
Keywords [sv]
Transformer, XMAE, 3D Poseringsestimering, Datorseende, Fysisk mänsklig interaktion, Övervakad maskininlärning
National Category
Mathematical sciences
Identifiers
URN: urn:nbn:se:kth:diva-372314OAI: oai:DiVA.org:kth-372314DiVA, id: diva2:2011372
External cooperation
TRACAB
Subject / course
Mathematical Statistics
Educational program
Master of Science - Applied and Computational Mathematics
Supervisors
Examiners
2025-11-042025-11-042025-11-04Bibliographically approved