Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • harvard1
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Efficient features for representing hand shape in images: By using linear projections in the HOG feature space
KTH, School of Computer Science and Communication (CSC).
2014 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 HE creditsStudent thesis
Abstract [en]

This thesis explores hand pose estimation, which means mapping a 2D imageto a hand pose. Hand pose estimation has many promising applications suchas hand sign recognition, robotic learning by demonstration, and human computer interaction in general. To do the estimation, image features are extracted from the image and a mapping to the space of hand poses is the nconstructed. Ideally the mapping from image features to pose space would be one-to-one, but in reality it is rather a many-to-many mapping leadingto ambiguities. This is due to the image feature not capturing the actualpose, but the form of the 2D projection of the hand. Hands may also occludeparts of itself which also leads to ambiguities. This thesis explores ways in which to improve the commonly used image feature HOG (Histogram of Oriented Gradients), by capturing the HOG subspace used by hand images, to obtain a feature whose mapping to pose space is more well-behaved than that of the HOG feature. The new feature is computed as projection on anddistances to lines in HOG space. The new feature’s performance is tested against the HOG feature using nearest neighbour (NN) regression and the results show that the new feature does not yet perform as well as the HOG feature. Nevertheless, the conclusion is that the new feature, called MPDD,for Multiple Projection and Distance Dimensions, does indeed capture the most relevant information in HOG, but fail to use it as well as the HOG does with the current construction method. However, constructing the MPDD in a slightly different way could potentially lead to improvements and so future research could still be of interest.

Abstract [sv]

Effektiva visuella formdeskriptorer för handigenkänning. Denna masteruppsats undersöker handposestimering där en 2D bild används för att rekonstruera en handpos, vilken beskrivs av hur handlederna är vinklade. Handposestimering har många potentiella användningsområden varav några är teckenspråksigenkänning, robotinlärning från demonstrationer, men även människa-datorinteraktion i allmänhet. För att göra översättningen från bild till handpos extraheras först bildegenskaper (image-features) varpå en mappning till posrummet (alla möjliga poser) konstrueras. Den önskade egenskapen hos en mappning till posrummet är framförallt att den är one-to-one,men i verkligheten innehåller den normalt tvetydigheter. Detta beror bland annat på att bildegenskaperna inte beskriver själva handposen utan enbart formen av 2D projektionen av en hand. Förutom det så kan händer även skymma delar av sig själva vilket också leder till tvetydigheter i mappningen från bildegenskaper till posrummet. Målet med denna uppsats är ändå att undersöka sätt att förbättra den vanligt använd bildegenskap HOG (Histogramof Oriented Gradients) genom att använda det delrum hos HOG deskriptorerna som upptas av handbilder. Den nya bildegenskapen konstrueras genom projektioner och avståndsberäkningar till linjer i HOG rummet som motsvarar handrörelser. Den föreslagna bildegenskapen testas mot HOG med NN(Nearest neighbour) regression och resultatet visar att HOG presterar bästmed den nuvarande konstruktionen av den nya bildegenskapen. Slutsatsen är dock att den nya deskriptorn, kallad MPDD för Multiple Projection and Distance dimensions, lyckas fånga det relevanta delrummet av HOG, men misslyckas med att använda informationen i denna. Detta innebär sannolikt att sättet som MPDD konstrueras på i denna mastersuppsats antagligen bör förändras även om en liknande idé kan räcka för att uppnå samma eller bättre resultat än HOG.

Place, publisher, year, edition, pages
2014.
National Category
Computer Science
Identifiers
URN: urn:nbn:se:kth:diva-154043OAI: oai:DiVA.org:kth-154043DiVA: diva2:754822
Examiners
Available from: 2014-11-20 Created: 2014-10-13 Last updated: 2014-11-20Bibliographically approved

Open Access in DiVA

fulltext(4660 kB)79 downloads
File information
File name FULLTEXT01.pdfFile size 4660 kBChecksum SHA-512
f4ca7f156d95707a7edd7655eabddf49b6a7356f1fa82ebaf4a088e605e4e66933b9a940b83bae8dc8546ba243dbad8f4f059644905f26834212502a518cedbc
Type fulltextMimetype application/pdf

By organisation
School of Computer Science and Communication (CSC)
Computer Science

Search outside of DiVA

GoogleGoogle Scholar
Total: 79 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 114 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • harvard1
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf