Ändra sökning
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • harvard1
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf
Shape-based Representations and Boosting for Visual Object Class Detection: Models and methods for representaion and detection in single and multiple views
KTH, Skolan för datavetenskap och kommunikation (CSC), Datorseende och robotik, CVAP.
2011 (Engelska)Doktorsavhandling, monografi (Övrigt vetenskapligt)
Abstract [en]

Detection of generic visual object classes (i.e. cars, dogs, mugs or people) in images is a task that humans are able to solve with remarkable ease. Unfortunately this has proven a very challenging task for computer vision. Thereason is that different instances of the same class may look very different, i.e. there is a high intra-class variation. There are several causes for intra-class variation; for example (1) the imaging conditions (e.g. lighting and exposure) may change, (2) different objects of the same class typically differ in shape and appearance, (3) the position of the object relative to the camera (i.e. the viewpoint) may change and (4) some objects are articulate and may change pose. In addition the background class, i.e. everything but the target object class, is very large. It is the combination of very high intra-class variation with a large background class that makes generic object class detection difficult.

This thesis addresses this challenge within the AdaBoost framework. AdaBoost constructs an ensemble of weak classifiers to solve a given classification task and allows great flexibility in the design of these weak classifiers. This thesis proposes several types of weak classifiers that specifically target some of the causes of high intra-class variation. A multi-local classifier is proposed to capture global shape properties for object classes that lack discriminative local features, projectable classifiers are proposed to handle detection from multiple viewpoints and finally gated classifiers are proposed as a generic way to handle high intra-class variation in combination with a large background class.

All proposed weak classifiers are evaluated on standard datasets to allow performance comparison to other related methods.

Abstract [en]

Vi människor kan utan ansträngning känna igen ett stort antal visuella objektklasser (såsom bilar, hundar, koppar eller människor). Tyvärr har det visat sig mycket svårt att programmera en dator att göra samma sak. Anledningen är att olika objekt från samma klass kan ha mycket olika utseende, beroende på att (1) avbildningsförutsättningar (exempelvis ljussättning och exponering) kan förändras, (2) olika objekt från samma klass har ofta mycket olika fysiska egenskaper (såsom färg, form eller material), (3) synvinkeln förändras och (4) rörliga objekt kan inta olika ställningar. Utöver detta är bakgrundsklassen, d.v.s. alla tänkbara bilder som inte föreställer ett objekt från målklassen, mycket stor. Det är kombinationen av hög intraklassvariation och stor bakgrundsklass som gör objektigenkänning till ett svårt problem.

Denna utmaning bemöter vi inom ramarna för maskininlärningsmetoden AdaBoost. AdaBoost bygger en kraftfull klassificerare genom att kombinera ett stort antal svaga klassificerare, vars utformning är mycket fri. Denna avhandling behandlar flera olika typer av svaga klassificerare vars målsättning är att hantera några av orsakerna till intraklassvariation. Vi föreslår en multilokal klassificerare för att fånga icke-lokala formegenskaper hos objektklassersom saknar diskriminativa lokala egenskaper. Vi föreslår vidare projicerbara klassifierare för att hantera en varierande synvinkel. Slutligen föreslår vi en klassifierare baserad på logiska grindar som ett generiskt sätt att hantera stor intraklassvariation i kombination med stor bakgrundsklass.

Vi utvärderar alla föreslagna svaga klassificerare på publika datamängder för att underlätta jämförelse med andra metoder.

Ort, förlag, år, upplaga, sidor
Stockholm: KTH Royal Institute of Technology, 2011. , s. viii, 130
Nationell ämneskategori
Datorseende och robotik (autonoma system)
Identifikatorer
URN: urn:nbn:se:kth:diva-58479ISBN: 978-91-7501-229-2 (tryckt)OAI: oai:DiVA.org:kth-58479DiVA, id: diva2:473153
Disputation
2012-02-10, Sal F3, Lindstedtsvägen 26, KTH, Stockholm, 13:00 (Engelska)
Opponent
Handledare
Anmärkning
QC 20120110Tillgänglig från: 2012-01-10 Skapad: 2012-01-05 Senast uppdaterad: 2018-01-12Bibliografiskt granskad

Open Access i DiVA

fulltext(65206 kB)271 nedladdningar
Filinformation
Filnamn FULLTEXT01.pdfFilstorlek 65206 kBChecksumma SHA-512
b2e663e7e8dd15a70479724a646e072f129d38a310d1608b1316df692e077c9591adb5e4d8dfed4c79ef32324082b94dbeb27e7d26f02fa7211c4a1e28c47c7c
Typ fulltextMimetyp application/pdf

Sök vidare i DiVA

Av författaren/redaktören
Danielsson, Oscar
Av organisationen
Datorseende och robotik, CVAP
Datorseende och robotik (autonoma system)

Sök vidare utanför DiVA

GoogleGoogle Scholar
Totalt: 271 nedladdningar
Antalet nedladdningar är summan av nedladdningar för alla fulltexter. Det kan inkludera t.ex tidigare versioner som nu inte längre är tillgängliga.

isbn
urn-nbn

Altmetricpoäng

isbn
urn-nbn
Totalt: 477 träffar
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • harvard1
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf