kth.sePublications
12345671 of 17
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Capturing the Shape and Pose of Horses in 3D
KTH, School of Electrical Engineering and Computer Science (EECS), Intelligent systems, Robotics, Perception and Learning, RPL.ORCID iD: 0000-0002-7627-0125
2025 (English)Doctoral thesis, monograph (Other academic)
Abstract [en]

Animals play a significant role in the Earth's ecology and have lived alongside humans throughout history. Studying and understanding their movements and behaviors is important for advancing scientific knowledge and benefiting practical applications. In this thesis, we focus specifically on horses, which are key subjects in both computer vision and biological research due to their strength in speed and unique locomotion systems. 

Traditional systems for capturing horse motion often rely on attaching sensors or markers to the horse's body. These systems, however, are often limited to constrained environments and difficult to use in natural, unconstrained settings. In contrast, capturing horses using standard video cameras, where horses are observed in their natural environments, presents a more practical solution. However, capturing horses in 3D, specifically the 3D shape and pose, from 2D images is a highly challenging problem due to the ambiguity with only 2D data. 

To address these challenges, we propose model-based methods to capture the 3D shape and pose of horses from monocular images or videos. We start by presenting hSMAL, a horse-specific 3D parameterized model, capable of expressing diverse horse shapes, which is learned from 3D scan data. We also demonstrate the practical utility of this model in lameness detection, a critical veterinary task for assessing the well-being of horses. Additionally, we present a comprehensive horse motion dataset, collecting data from horses of varying shapes and performing diverse movements, using dense motion capture markers. This motion capture data allows us to animate hSMAL with real horse movements, providing details about how horses move and also tackling the common issue of limited data in animal research.

Building on the proposed model and the dataset, we develop data-driven regression methods, to capture horses in 3D from monocular images and videos in an end-to-end manner. First, we integrate multimodal data, combining video clips and audio. Our findings show that incorporating audio enhances the robustness of the method, especially in situations of visual ambiguity and occlusion. Second, we integrate vision foundation models and disentanglement learning with an on-the-fly synthetic data generation pipeline. The pipeline allows the creation of paired data during network training, facilitating the learning of disentangled feature spaces. Together, these approaches enhance the generalization and adaptability of the method, improving performance on images from various domains and other four-legged animals. Through experiments on both our own collected datasets and public datasets, we demonstrate the effectiveness of the proposed methods in advancing horse-specific capture from monocular images and videos. 

This thesis contributes methodologies for capturing horses from standard video cameras, specifically focusing on the 3D shape and pose, opening new possibilities for animal motion capture and analysis.

Abstract [sv]

Djur spelar en betydande roll i jordens ekologi och har levt tillsammans med människor genom historien. Att studera och förstå deras rörelser och beteenden är viktigt för att främja vetenskaplig kunskap och gynna praktiska tillämpningar. I detta examensarbete fokuserar vi specifikt på hästar, som är nyckelämnen inom både datorseende och biologisk forskning på grund av deras styrka i hastighet och unika rörelsesystem.

Traditionella system för att fånga hästens rörelser förlitar sig ofta på att fästa sensorer eller markörer på hästens kropp. Dessa system är dock ofta begränsade till begränsade miljöer och svåra att använda i naturliga, oinskränkta miljöer. Att fånga hästar med vanliga videokameror, där hästar observeras i sina naturliga miljöer, är däremot en mer praktisk lösning. Men att fånga hästar i 3D, särskilt 3D-formen och posituren, från 2D-bilder är ett mycket utmanande problem på grund av tvetydigheten med endast 2D-data.

För att möta dessa utmaningar föreslår vi modellbaserade metoder för att fånga hästars 3D-form och ställning från monokulära bilder eller videor. Vi börjar med att presentera hSMAL, en hästspecifik 3D-parameteriserad modell, kapabel att uttrycka olika hästformer, som lärs från 3D-skanningsdata. Vi visar också den praktiska användbarheten av denna modell för att upptäcka hälta, en viktig veterinäruppgift för att bedöma hästars välbefinnande. Dessutom presenterar vi en omfattande datauppsättning för häströrelser, som samlar in data från hästar med olika former och utför olika rörelser med hjälp av markörer för täta rörelsefångst. Denna motion capture-data tillåter oss att animera hSMAL med riktiga häströrelser, tillhandahålla detaljer om hur hästar rör sig och även ta itu med det vanliga problemet med begränsad data inom djurforskning.

Med utgångspunkt i den föreslagna modellen och datamängden utvecklar vi datadrivna regressionsmetoder för att fånga hästar i 3D från monokulära bilder och videor på ett heltäckande sätt. Först integrerar vi multimodal data, kombinerar videoklipp och ljud. Våra resultat visar att inkorporering av ljud ökar robustheten i metoden, särskilt i situationer med visuell tvetydighet och ocklusion. För det andra integrerar vi grundmodeller för vision och inlärning av disentanglement med en pipeline för generering av syntetisk data i farten. Pipelinen gör det möjligt att skapa parad data under nätverksträning, vilket underlättar inlärningen av disentangled funktionsutrymmen. Tillsammans förbättrar dessa tillvägagångssätt generaliseringen och anpassningsförmågan hos metoden, vilket förbättrar prestandan på bilder från olika domäner och andra fyrbenta djur. Genom experiment på både våra egna insamlade datamängder och offentliga dataset visar vi effektiviteten hos de föreslagna metoderna för att främja hästspecifik fångst från monokulära bilder och videor.

Denna avhandling bidrar med metoder för att fånga hästar från vanliga videokameror, speciellt med fokus på 3D-formen och posituren, vilket öppnar nya möjligheter för rörelsefångning och analys av djur.

Place, publisher, year, edition, pages
Stockholm: KTH Royal Institute of Technology, 2025. , p. 149
Series
TRITA-EECS-AVL ; 2025:3
National Category
Computer Systems
Research subject
Computer Science
Identifiers
URN: urn:nbn:se:kth:diva-356897ISBN: 978-91-8106-144-4 (print)OAI: oai:DiVA.org:kth-356897DiVA, id: diva2:1916552
Public defence
2025-01-13, https://kth-se.zoom.us/j/66272186963, F3, Lindstedtsvägen 26, Stockholm, 14:00 (English)
Opponent
Supervisors
Note

QC 20241129

Available from: 2024-11-29 Created: 2024-11-27 Last updated: 2024-11-29Bibliographically approved

Open Access in DiVA

fulltext(112825 kB)59 downloads
File information
File name FULLTEXT01.pdfFile size 112825 kBChecksum SHA-512
0e180dc84ef5656654b4f2782dbebcb46f54f8b3cfc0f8ff78e2d2ca492588f8aa8671a2dbe6ebb94bd5dffe66b682c9eeb14748a834006b0d42a00b0feae1a7
Type fulltextMimetype application/pdf

Authority records

Li, Ci

Search in DiVA

By author/editor
Li, Ci
By organisation
Robotics, Perception and Learning, RPL
Computer Systems

Search outside of DiVA

GoogleGoogle Scholar
Total: 59 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

isbn
urn-nbn

Altmetric score

isbn
urn-nbn
Total: 444 hits
12345671 of 17
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf