kth.sePublications KTH
Operational message
There are currently operational disruptions. Troubleshooting is in progress.
Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Modeling 3D Human Interactions
KTH, School of Electrical Engineering and Computer Science (EECS).
2025 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesisAlternative title
Modellering av mänskliga interaktioner i 3D (Swedish)
Abstract [en]

Modeling human interactions in three-dimensional (3D) environments is a fundamental challenge in computer vision. Human bodies are complex, non-rigid structures that often engage in close and dynamic interactions, especially in settings like sports. Capturing these interactions accurately, without artifacts such as mesh inter-penetration or physically implausible poses, remains an open research problem due to the lack of high-quality data and the high complexity of the task. This work addresses the problem by developing a transformer-based framework tailored for 3D human skeleton interaction modeling. More specifically, we leverage a novel architecture based on the Cross-Attention Masked Autoencoder (XMAE), trained and evaluated on real-world football tracking data provided by Tracab. The dataset includes player motion during competitive Bundesliga matches, featuring naturally occurring close interactions between multiple human subjects. Our approach demonstrates the ability to: (i) correct noisy or inaccurate joint positions in the 3D skeletons, (ii) infer missing skeletal information with high precision, and (iii) generate physically plausible 3D human interactions without inter-penetrations. These capabilities are especially critical in sports analytics, where accurate spatial-temporal modeling of athletes’ movements is essential. The ability to model multi-human interactions in 3D has broader implications beyond sports, including applications in social behavior analysis, robotics, autonomous systems, and augmented reality. By addressing a key bottleneck in current 3D pose estimation systems, this work opens up new possibilities for real-time, interaction-aware motion analysis in unconstrained environments.

Abstract [sv]

Att förstå och modellera interaktioner mellan människor i tredimensionella (3D) miljöer är en grundläggande utmaning inom datorseende. Människokroppar är komplexa, icke-stela strukturer som ofta ingår i nära och dynamiska interaktioner, särskilt i miljöer som sport. Att fånga dessa interaktioner exakt - utan artefakter som mesh-interpenetration eller fysiskt osannolika poser - är fortfarande ett öppet forskningsproblem på grund av bristen på högkvalitativa data och den höga komplexiteten i uppgiften. Detta arbete tar itu med problemet genom att utveckla ett transformerbaserat ramverk skräddarsytt för interaktionsmodellering av mänskliga skelett i 3D. Mer specifikt utnyttjar vi en ny arkitektur baserad på Cross-Attention Masked Autoencoder (XMAE), utbildad och utvärderad på verkliga trackingdata från fotbollsspelare som tillhandahålls av Tracab. Datauppsättningen innehåller spelarrörelser under tävlingsmatcher i Bundesliga, med naturligt förekommande nära interaktioner mellan människor. Vårt tillvägagångssätt visar förmågan att: (i) korrigera brusiga eller felaktiga ledpositioner i 3D-skeletten, (ii) härleda saknad skelettinformation med hög precision, och (iii) generera fysiskt rimliga mänskliga 3D-interaktioner utan interpenetration. Dessa förmågor är särskilt viktiga inom sportanalys, där exakt spatial-temporal modellering av idrottares rörelser är avgörande. Förmågan att modellera interaktioner mellan flera människor i 3D har bredare konsekvenser än sport, inklusive tillämpningar inom social beteendeanalys, robotteknik, autonoma system och förstärkt verklighet. Genom att ta itu med ett viktig hinder i nuvarande 3D-poseuppskattningssystem öppnar detta arbete upp nya möjligheter för interaktionsmedveten rörelseanalys i realtid i okontrollerade miljöer.

Place, publisher, year, edition, pages
2025. , p. 57
Series
TRITA-EECS-EX ; 2025:519
Keywords [en]
3D human pose estimation, Mesh generation, Intersecting volume, Signed distance fields, Human interaction, Motion tracking
Keywords [sv]
3D pose uppskattning, Mesh generering, Intersekterande volym, Signaldistansfält, Mänsklig interaktion, Rörelseföljning
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-368187OAI: oai:DiVA.org:kth-368187DiVA, id: diva2:1987583
External cooperation
TRACAB
Supervisors
Examiners
Available from: 2025-08-11 Created: 2025-08-06 Last updated: 2025-08-11Bibliographically approved

Open Access in DiVA

fulltext(1404 kB)104 downloads
File information
File name FULLTEXT01.pdfFile size 1404 kBChecksum SHA-512
d81c9f69ca786404183ac4fd79e98cfdf1ab4a1e329af160c164ee6282af0d39478c34ee42dc225154492cd718642d5387aec899e3c53d3ec365c8624a2afeec
Type fulltextMimetype application/pdf

By organisation
School of Electrical Engineering and Computer Science (EECS)
Computer and Information Sciences

Search outside of DiVA

GoogleGoogle Scholar
Total: 105 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 533 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf