Modeling 3D Human Interactions
2025 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE credits
Student thesisAlternative title
Modellering av mänskliga interaktioner i 3D (Swedish)
Abstract [en]
Modeling human interactions in three-dimensional (3D) environments is a fundamental challenge in computer vision. Human bodies are complex, non-rigid structures that often engage in close and dynamic interactions, especially in settings like sports. Capturing these interactions accurately, without artifacts such as mesh inter-penetration or physically implausible poses, remains an open research problem due to the lack of high-quality data and the high complexity of the task. This work addresses the problem by developing a transformer-based framework tailored for 3D human skeleton interaction modeling. More specifically, we leverage a novel architecture based on the Cross-Attention Masked Autoencoder (XMAE), trained and evaluated on real-world football tracking data provided by Tracab. The dataset includes player motion during competitive Bundesliga matches, featuring naturally occurring close interactions between multiple human subjects. Our approach demonstrates the ability to: (i) correct noisy or inaccurate joint positions in the 3D skeletons, (ii) infer missing skeletal information with high precision, and (iii) generate physically plausible 3D human interactions without inter-penetrations. These capabilities are especially critical in sports analytics, where accurate spatial-temporal modeling of athletes’ movements is essential. The ability to model multi-human interactions in 3D has broader implications beyond sports, including applications in social behavior analysis, robotics, autonomous systems, and augmented reality. By addressing a key bottleneck in current 3D pose estimation systems, this work opens up new possibilities for real-time, interaction-aware motion analysis in unconstrained environments.
Abstract [sv]
Att förstå och modellera interaktioner mellan människor i tredimensionella (3D) miljöer är en grundläggande utmaning inom datorseende. Människokroppar är komplexa, icke-stela strukturer som ofta ingår i nära och dynamiska interaktioner, särskilt i miljöer som sport. Att fånga dessa interaktioner exakt - utan artefakter som mesh-interpenetration eller fysiskt osannolika poser - är fortfarande ett öppet forskningsproblem på grund av bristen på högkvalitativa data och den höga komplexiteten i uppgiften. Detta arbete tar itu med problemet genom att utveckla ett transformerbaserat ramverk skräddarsytt för interaktionsmodellering av mänskliga skelett i 3D. Mer specifikt utnyttjar vi en ny arkitektur baserad på Cross-Attention Masked Autoencoder (XMAE), utbildad och utvärderad på verkliga trackingdata från fotbollsspelare som tillhandahålls av Tracab. Datauppsättningen innehåller spelarrörelser under tävlingsmatcher i Bundesliga, med naturligt förekommande nära interaktioner mellan människor. Vårt tillvägagångssätt visar förmågan att: (i) korrigera brusiga eller felaktiga ledpositioner i 3D-skeletten, (ii) härleda saknad skelettinformation med hög precision, och (iii) generera fysiskt rimliga mänskliga 3D-interaktioner utan interpenetration. Dessa förmågor är särskilt viktiga inom sportanalys, där exakt spatial-temporal modellering av idrottares rörelser är avgörande. Förmågan att modellera interaktioner mellan flera människor i 3D har bredare konsekvenser än sport, inklusive tillämpningar inom social beteendeanalys, robotteknik, autonoma system och förstärkt verklighet. Genom att ta itu med ett viktig hinder i nuvarande 3D-poseuppskattningssystem öppnar detta arbete upp nya möjligheter för interaktionsmedveten rörelseanalys i realtid i okontrollerade miljöer.
Place, publisher, year, edition, pages
2025. , p. 57
Series
TRITA-EECS-EX ; 2025:519
Keywords [en]
3D human pose estimation, Mesh generation, Intersecting volume, Signed distance fields, Human interaction, Motion tracking
Keywords [sv]
3D pose uppskattning, Mesh generering, Intersekterande volym, Signaldistansfält, Mänsklig interaktion, Rörelseföljning
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-368187OAI: oai:DiVA.org:kth-368187DiVA, id: diva2:1987583
External cooperation
TRACAB
Supervisors
Examiners
2025-08-112025-08-062025-08-11Bibliographically approved