Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • harvard1
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Depth Inclusion for Classification and Semantic Segmentation
KTH, School of Electrical Engineering and Computer Science (EECS), Robotics, perception and learning, RPL.
2018 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesisAlternative title
Klassificering och semantisk segmentering med färg och djup (Swedish)
Abstract [en]

The  majority  of  computer  vision  algorithms  only  use  RGB  images  to  make  inferencesabout  the  state  of  the  world.  With  the  increasing  availability  of  RGB-D  cameras  it  is  im-portant  to  examine  ways  to  effectively  fuse  this  extra  modality  for  increased  effective-ness.  This  paper  examines  how  depth  can  be  fused  into  CNNs  to  increase  accuracy  in  thetasks  of  classification  and  semantic  segmentation,  as  well  as  examining  how  this  depthshould  best  be  effectively  encoded  prior  to  inclusion  in  the  network.  Concatenating  depthas  a  fourth  image  channel  and  modifying  the  dimension  of  the  initial  layer  of  a  pretrainedCNN  is  initially  examined.  Creating  a  separate  duplicate  network  to  train  depth  on,  andfusing  both  networks  in  later  stages  is  shown  to  be  an  effective  technique  for  both  tasks.The  results  show  that  depth  concatenation  is  an  ineffective  strategy  as  it  clamps  the  ac-curacy  to  the  lower  accuracy  of  the  two  modalities,  whilst  late  fusion  can  improve  thetask  accuracy  beyond  that  of  just  the  RGB  trained  network  for  both  tasks.  It  is  also  foundthat  methods  such  as  HHA  encoding  which  revolve  around  calculating  geometric  prop-erties  of  the  depth,  such  as  surface  normals,  are  a  superior  encoding  method  than  sim-pler  colour  space  transformations  such  as  HSV.  This  only  holds  true  when  these  depthimages  are  normalised  over  the  maximum  depth  of  the  dataset  as  opposed  to  the  maxi-mum  depth  of  each  individual  image,  thus  retaining  geometric  consistency  between  im-ages.  The  reverse  holds  true  for  simpler  colour  space  transformations.

Abstract [sv]

Majoriteten av algoritmerna för datorseende använder bara färginformation för att dra sultsatser om hur världen ser ut. Med ökande tillgänglighet av RGB-D-kameror är det viktigt att undersöka sätt att effektivt kombinera färg- med djupinformation. I denna uppsats undersöks hur djup kan kombineras med färg i CNN:er för att öka presentandan i både klassificering och semantisk segmentering, så väl som att undersöka hur djupet kodas mest effektivt före dess inkludering i nätverket. Att lägga till djupet som en fjärde färgkanal och modifiera en förtränad CNN utreds inledningsvis. Sedan studeras att istället skapa en separat kopia av nätverket för att träna djup och sedan kombinera utdata från båda nätverken. Resultatet visar att det är ineffektivt att lägga till djup som en fjärde färgkanal då nätverket begränsas av den sämsta informationen från djup och färg. Fusion från två separata nätverk med färg och djup ökar prestanda bortom det som färg och djup erbjuder separat. Resultatet visar också att metoder så som HHA-kodning, är överlägsna jämfört med enklare transformationer så som HSV. Värt att notera är att detta endast gäller då djupbilderna är normaliserade över alla bilders maxdjup och inte i varje enskild bilds för sig. Motsatsen är sann för enklare transformationer.

Place, publisher, year, edition, pages
2018. , p. 56
Series
TRITA-EECS-EX ; 2018:508
National Category
Robotics
Identifiers
URN: urn:nbn:se:kth:diva-233371OAI: oai:DiVA.org:kth-233371DiVA, id: diva2:1239567
Educational program
Master of Science - Systems, Control and Robotics
Presentation
2018-06-28, room 304 (22:an), Teknikringen 14, KTH, Stockholm, 13:15 (English)
Supervisors
Examiners
Available from: 2018-08-31 Created: 2018-08-16 Last updated: 2018-08-31Bibliographically approved

Open Access in DiVA

fulltext(3625 kB)19 downloads
File information
File name FULLTEXT01.pdfFile size 3625 kBChecksum SHA-512
5f75209cdea27a379d41de63d8b70fd6a11d774ee73cdc993bc53f0787f045c2ab772b98d91ab9868ef2f3f9bb0489f73d3586a2ab08a91a9d05f0852c295932
Type fulltextMimetype application/pdf

By organisation
Robotics, perception and learning, RPL
Robotics

Search outside of DiVA

GoogleGoogle Scholar
Total: 19 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 138 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • harvard1
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf