3D Estimation of Joints for Motion Analysis in Sports Medicine: A study examining the possibility for monocular 3D estimation to be used as motion analysis for applications within sports with the goal to prevent injury and improve sport specific motion
2023 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE credits
Student thesisAlternative title
3D estimering av leder för rörelseanalys inom idrottsmedicin (Swedish)
Abstract [en]
3D joint estimation can be used to track bodies in areas such as entertainment, sports, biomedicine and surveillance to identify bodies from video streams and images. This is most commonly done with multi-view solutions but researchers are currently spending a large amount of resources into developing mono-view solutions. The idea is to utilise neural networks to identify 3D joints by exploiting patterns and restrictions found in the human pose. Currently these systems are showing great results in controlled settings with good accuracy. However, for this to become a widespread technique it will be crucial for the systems to be able to perform with high accuracy in all types of settings. This thesis will focus on evaluating if current systems could be used to perform 3D estimations with high accuracy on movement analysis in sports settings. Based on a prestudy performing meaningful analysis in the area would require the system to perform with an accuracy of 4 cm. In order to evaluate the accuracy in this setting this thesis consists of three steps. Firstly two methods are picked by performing a prestudy of currently available monocular 3D joint estimation solutions. The accuracy of these two methods is then evaluated on two datasets, one which both have been trained on and another sports focused dataset which neither have been trained on. The sports dataset consisted of video sequences of movements from tennis, volleyball, basketball, badminton, football and rugby. In the last step a smoothing filter is applied on the results from the method that performed best on the sports dataset. This was done in order to further improve the accuracy of the system and evaluate the idea of using such techniques. The comparisons were made by measuring the mean per joint positional error for each of the images in the datasets. Both of the methods used were unable to reach a 4 cm accuracy on the sports dataset and thus are not suitable for this type of analysis in their current states. However applying a filter on the results did result in a small improvement of the accuracy and could be an area of research to look further into when these methods are further developed.
Abstract [sv]
3D estimering av leder i kroppen är en teknik som kan användas för att spåra och identifiera kroppar utifrån bilder och videoströmmar inom områden som underhållning, sport, biomedicin och övervakning. Detta görs oftast med flera kameror men forskare lägger för närvarande mycket resurser på att utveckla lösningar som bara använder en kamera, så kallade monocular system. Tanken är att använda neurala nätverk för att identifiera 3D leder genom att utnyttja mönster och restriktioner som finns i den mänskliga kroppen. För närvarande visar dessa system mycket lovande resultat i kontrollerade miljöer med mycket god noggrannhet. Men för att detta ska bli en utbredd teknik inom fler områden kommer det att vara avgörande för systemen att kunna prestera med hög noggrannhet i en större mängd miljöer med fler variationer. Denna avhandling fokuserar på att utvärdera om nuvarande metoder skulle kunna användas för att utföra 3D beräkningar av leder med tillräckligt hög noggrannhet för att kunna användas för rörelseanalys i sportmiljöer. Baserat på en förstudie inom det biomedicinska området skulle detta kräva att systemen kan arbeta med en noggrannhet på 4 cm. För att utvärdera noggrannheten i denna miljö, har metoden i denna avhandling delats upp i tre steg. Först kommer två metoder för 3D-uppskattning att väljas genom att utföra en förstudie av för närvarande tillgängliga monocular lösningar. Noggrannheten av dessa två utvärderas sedan på två dataset, ett som båda har tränats på och ett ytterligare dataset med fokus på sport som ingendera har tränats på. Sportdatasetet bestod av videosekvenser av rörelser från tennis, volleyboll, basket, badminton, fotboll och rugby. Detta är avgörande för det sista steget i metoden då ett filter appliceras på resultaten från den metod som presterade bäst på sportdatasetet. Detta gjordes för att ytterligare förbättra systemets noggrannhet och utvärdera idén med att använda sådana tekniker. Jämförelserna gjordes genom att mäta medelvärdet per ledpositionsfel för var och en av bilderna i dataseten. Båda metoderna som användes uppnådde inte den uppsatta noggranhet på 4 cm för sportdatasetet och är därför inte lämpliga för denna typ av analys i deras nuvarande tillstånd. Men att tillämpa ett filter på resultaten ledde till en liten förbättring av noggrannheten och kan vara ett område värt att undersöka ytterligare vid vidare utveckling av dessa metoder.
Place, publisher, year, edition, pages
2023. , p. 54
Series
TRITA-EECS-EX ; 2023:123
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-329205OAI: oai:DiVA.org:kth-329205DiVA, id: diva2:1769452
Supervisors
Examiners
2023-06-272023-06-162023-06-27Bibliographically approved