Open this publication in new window or tab >>2024 (English)Doctoral thesis, comprehensive summary (Other academic)
Abstract [en]
Humans are the primary subjects of interest in the realm of computer vision. Specifically, perceiving, generating, and understanding human activities have long been a core pursuit of machine intelligence. Over the past few decades, data-driven methods for modeling human motion have demonstrated great potential across various interactive media and social robotics domains. Despite its impressive achievements, challenges still remain in analyzing multi-agent/multi-modal behaviors and in producing high-fidelity and highly varied motions. This complexity arises because human motion is inherently dynamic, uncertain, and intertwined with its environment. This thesis aims to introduce challenges and data-driven methods of understanding human motion and then elaborate on the contributions of the included papers. We present this thesis mainly in ascending order of complexity: recognition, synthesis, and transfer, which includes the tasks of perceiving, generating, and understanding human activities.
Firstly, we present methods to recognize human motion (Paper A). We consider a conversational group scenario where people gather and stand in an environment to converse. Based on transformer-based networks and graph convolutional neural networks, we demonstrate how spatial-temporal group dynamics can be modeled and perceived on both the individual and group levels. Secondly, we investigate probabilistic autoregressive approaches to generate controllable human locomotion. We employ deep generative models, namely normalizing flows (Paper B) and diffusion models (Paper C), to generate and reconstruct the 3D skeletal poses of humans over time. Finally, we deal with the problem of motion style transfer. We propose style transfer systems that allow transforming motion styles while attempting to preserve motion context through GAN-based (Paper D) and diffusion-based (Paper E) methods. Compared with previous research mainly focusing on simple locomotion or exercise, we consider more complex dance movements and multimodal information.
In summary, this thesis aims to propose methods that can effectively perceive, generate, and transfer 3D human motion. In terms of network architectures, we employ graph formulation to exploit the correlation of human skeletons, thereby introducing inductive bias through graph structures. Additionally, we leverage transformers to handle long-term data dependencies and weigh the importance of varying data components. In terms of learning frameworks, we adopt generative models to represent joint distribution over relevant variables and multiple modalities, which are flexible to cover a wide range of tasks. Our experiments demonstrate the effectiveness of the proposed frameworks by evaluating the methods on our own collected dataset and public datasets. We show how these methods are applied to various challenging tasks.
Abstract [sv]
Människor är av primärt intresse för studier inom ämnet datorseende. Mer specifikt, att uppfatta, generera och förstå mänskliga aktiviteter har länge varit en huvudsaklig strävan inom maskinintelligens. Under de senaste årtiondena har datadrivna metoder för modellering av mänsklig rörelse visat stor potential inom olika interaktiva medier och områden för social robotik. Trots dess imponerande framgångar kvarstår utmaningar i att analysera multiagent/multimodal-beteenden och producera högupplösta och mycket varierade rörelser. Denna komplexitet uppstår eftersom mänsklig rörelse i grunden är dynamisk, osäker och sammanflätad med sin miljö. Denna avhandling syftar till att introducera utmaningar och datadrivna metoder för att förstå mänsklig rörelse och sedan beskriva bidragen från de inkluderade artiklarna. Vi presenterar denna avhandling huvudsakligen i stigande ordning av komplexitet: igenkänning, syntes och överföring, vilket inkluderar uppgifterna att uppfatta, generera och förstå mänskliga aktiviteter.
Först presenterar vi metoder för att känna igen mänsklig rörelse (Artikel A). Vi beaktar ett konversationsgruppsscenario där människor samlas och står i en miljö för att samtala. Baserat på transformer-baserade nätverk och graf-faltade neurala nätverk visar vi hur rumsligt-temporal gruppdynamik kan modelleras och uppfattas på både individ- och gruppnivåer. För det andra undersöker vi probabilistiska autoregressiva metoder för att generera kontrollerbar mänsklig rörelse. Vi använder djupa generativa modeller, nämligen normaliserande flöden (Artikel B) och diffusionsmodeller (Artikel C), för att generera och rekonstruera 3D-skelettpositioner av människor över tid. Slutligen behandlar vi problemet med översättning av rörelsestilar. Vi föreslår ett stilöversättningssystem som möjliggör omvandling av rörelsestilar samtidigt som det försöker bevara rörelsesammanhang genom GAN-baserade (Artikel D) och diffusionsbaserade (Artikel E) metoder. Jämfört med tidigare forskning som huvudsakligen fokuserar på enkel rörelse eller träning, beaktar vi mer komplexa dansrörelser och multimodal information.
Sammanfattningsvis syftar denna avhandling till att föreslå metoder som effektivt kan uppfatta, generera och översätta mänsklig rörelse i 3D. När det gäller nätverksarkitekturer använder vi en graf-formulering för att utnyttja korrelationen av mänskliga skelett, därigenom introducera induktiv bias genom grafstrukturer. Dessutom utnyttjar vi transformer för att hantera långsiktiga databeroenden och väga betydelsen av varierande komponenter i datan.När det gäller ramverk för inlärning tillämpar vi generativa modeller för att representera gemensam distribution över relevanta variabler och flera modaliteter, vilka är flexibla nog att täcka ett brett spektrum av uppgifter. Våra experiment visar effektiviteten av de föreslagna ramverken genom att utvärdera metoderna på egna insamlade dataset och offentliga dataset. Vi visar hur dessa metoder tillämpas för flertalet utmanande uppgifter.
Place, publisher, year, edition, pages
Stockholm: KTH Royal Institute of Technology, 2024. p. xiii, 68
Series
TRITA-EECS-AVL ; 2024:9
National Category
Computer Sciences
Research subject
Computer Science
Identifiers
urn:nbn:se:kth:diva-342366 (URN)978-91-8040-815-8 (ISBN)
Public defence
2024-02-16, https://kth-se.zoom.us/j/62347635904, F3, Lindstedtsvägen 26, Stockholm, 14:00 (English)
Opponent
Supervisors
Note
QC 20240117
2024-01-172024-01-162024-02-05Bibliographically approved