kth.sePublikationer KTH
Ändra sökning
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf
Exploring the ability of CNNs to generalise to previously unseen scales over wide scale ranges
KTH, Skolan för elektroteknik och datavetenskap (EECS), Datavetenskap, Beräkningsvetenskap och beräkningsteknik (CST). (Computational Brain Science Lab)ORCID-id: 0000-0003-0011-6444
KTH, Skolan för elektroteknik och datavetenskap (EECS), Datavetenskap, Beräkningsvetenskap och beräkningsteknik (CST). (Computational Brain Science Lab)ORCID-id: 0000-0002-9081-2170
2021 (Engelska)Ingår i: ICPR 2020: International Conference on Pattern Recognition, Institute of Electrical and Electronics Engineers (IEEE) , 2021, s. 1181-1188Konferensbidrag, Publicerat paper (Refereegranskat)
Abstract [en]

The ability to handle large scale variations is crucial for many real world visual tasks. A straightforward approach for handling scale in a deep network is to process an image at several scales simultaneously in a set of scale channels. Scale invariance can then, in principle, be achieved by using weight sharing between the scale channels together with max or average pooling over the outputs from the scale channels. The ability of such scale channel networks to generalise to scales not present in the training set over significant scale ranges has, however, not previously been explored. We, therefore, present a theoretical analysis of invariance and covariance properties of scale channel networks and perform an experimental evaluation of the ability of different types of scale channel networks to generalise to previously unseen scales. We identify limitations of previous approaches and propose a new type of foveated scale channel architecture, where the scale channels process increasingly larger parts of the image with decreasing resolution. Our proposed FovMax and FovAvg networks perform almost identically over a scale range of 8, also when training on single scale training data, and do also give improvements in the small sample regime.

Ort, förlag, år, upplaga, sidor
Institute of Electrical and Electronics Engineers (IEEE) , 2021. s. 1181-1188
Nyckelord [en]
deep learning, convolutional neural networks, invariant neural networks, scale invariance
Nationell ämneskategori
Datorgrafik och datorseende
Forskningsämne
Datalogi
Identifikatorer
URN: urn:nbn:se:kth:diva-288539DOI: 10.1109/ICPR48806.2021.9413276ISI: 000678409201038Scopus ID: 2-s2.0-85103171938OAI: oai:DiVA.org:kth-288539DiVA, id: diva2:1515273
Konferens
ICPR 2020: 25th International Conference on Pattern Recognition, Milan, Italy, January 10-15, 2021
Forskningsfinansiär
Vetenskapsrådet, 2018-03586
Anmärkning

Part of proceedings: ISBN 978-1-7281-8808-9, Not duplicate with diva 1423788, QC 20220517

Tillgänglig från: 2021-01-08 Skapad: 2021-01-08 Senast uppdaterad: 2025-02-07Bibliografiskt granskad

Open Access i DiVA

fulltext(219 kB)429 nedladdningar
Filinformation
Filnamn FULLTEXT01.pdfFilstorlek 219 kBChecksumma SHA-512
01cccfc8a023e657b8b5d506e5c5d0ae703e48fff51d8a3345c516d4742f2c07afac9401d839836524ac3368a80d11eb06b03a958e414567965234b0df813e0c
Typ fulltextMimetyp application/pdf

Övriga länkar

Förlagets fulltextScopusarXiv:2004.01536 extended versionICPR 2020 home page

Person

Jansson, YlvaLindeberg, Tony

Sök vidare i DiVA

Av författaren/redaktören
Jansson, YlvaLindeberg, Tony
Av organisationen
Beräkningsvetenskap och beräkningsteknik (CST)
Datorgrafik och datorseende

Sök vidare utanför DiVA

GoogleGoogle Scholar
Totalt: 430 nedladdningar
Antalet nedladdningar är summan av nedladdningar för alla fulltexter. Det kan inkludera t.ex tidigare versioner som nu inte längre är tillgängliga.

doi
urn-nbn

Altmetricpoäng

doi
urn-nbn
Totalt: 2170 träffar
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf