Endre søk
RefereraExporteraLink to record
Permanent link

Direct link
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annet format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annet språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf
Exploring the impact of image resolution on fashion style retrieval using CapsNets and Convolutional Neural Networks: Comparative study between Capsule Network and Convolutional Neural Network
KTH, Skolan för elektroteknik och datavetenskap (EECS).
2024 (engelsk)Independent thesis Advanced level (degree of Master (Two Years)), 20 poäng / 30 hpOppgaveAlternativ tittel
Undersökning av bildupplösningens inverkan på modeklassificering med Capsule Network och Convolutional Neural Network : Jämförelsestudie mellan CapsNet och CNN (svensk)
Abstract [en]

Image resolution determines the level of detail in an image, which is crucial for human identification of content. This applies to machine learning models as well, but similar to humans the importance varies depending on the classification task. Understanding how significant the drawbacks are in terms of performance when limiting the image resolution, is important in order to acquire optimization. This thesis investigates the impact of image resolution on fashion style retrieval of fashion images for neural networks, where fashion style retrieval is defined as identification of the overarching fashion style given a fashion image. This is accomplished by comparing the effects on the Convolutional Neural Network, and the Capsule Network. The analysis of the image resolutions was performed by having the models train on the different resolutions of images, and then evaluated at the different resolutions. The resolutions investigated were 7x7, 14x14, 28x28, 64x64, 128x128, 225x225, and the architectures used were Efficient-Caps(Capsnet), VGG11(CNN) and a simple CNN architecture. Evaluation was performed using accuracy and F1-score. Convolutional Network models demonstrated a clear correlation between performance and image resolution, since the variance in performance increased on larger images, i.e. performing worse when evaluated across all image resolutions, while for the Capsule Network, the variance remained random and no clear pattern could be identified. Comparing this to previous work, it is shown that the image resolution appears to have less of an effect on the performance of CNN, compared to other tasks including Endoscopy image classification, as the variance in performance was reported higher in previous studies.

Abstract [sv]

Bildupplösning bestämmer detaljnivån i en bild, vilket är avgörande för mänsklig identifiering av objekt. Detta gäller också för maskininlärningsmodeller, men likt människor så varierar betydelsen av upplösning med uppgiften. Förståelse för hur stora nackdelarna är när bildupplösningen begränsas, är viktigt för att kunna maximera objektidentifiering. Den här avhandlingen undersöker inverkan av upplösning på klädstilsklassificering för neurala nätverk, där klädstilsklassificering är definierad som identifieringen av den övervägande klädstil givet en modebild. Detta uppnås genom att jämföra inverkan av bildupplösningen på modellerna Convolutional Neural Network, och Capsule Network. Analysen av upplösning utfördes genom att träna de olika modellerna på olika upplösningar, för att sedan utvärderas på bilder med olika upplösningar. Upplösningarna som studerades var 7x7, 14x14, 28x28, 64x64, 128x128, 225x225, och arkitekturerna för modellerna var Efficient-Caps(Capsnet), VGG11(CNN) och en CNN-arkitektur. Modellerna utvärderas genom användning av noggrannhet och F1-värde. Convolutional Neural Networks visade en tydlig korrelation mellan prestanda och bildupplösning, där variansen i prestanda ökades när upplösningarna ökades, dvs att den sammanlagda prestationen över alla bildupplösningar blev sämre, medan för Capsule Network var variansen mer slumpmässig och inget tydligt mönster kunde identifieras. Jämfört med tidigare arbeten, visas det att bildupplösningar verkar ha en mindre inverkan på prestandan på CNN, till skillnad från andra klassificeringsuppgifter såsom Endoskopi, då rapporterad varians var uppmätt att vara högre.

sted, utgiver, år, opplag, sider
2024. , s. 46
Serie
TRITA-EECS-EX ; 2024:522
Emneord [en]
Capsule Network, Convolutional Neural Network, Image resolution, Fashion style retrieval, Neural Networks
Emneord [sv]
Capsule Network, Convolutional Neural Network, Bildupplösning, Identifiering av modestil, Neurala Nätverk
HSV kategori
Identifikatorer
URN: urn:nbn:se:kth:diva-352601OAI: oai:DiVA.org:kth-352601DiVA, id: diva2:1894750
Eksternt samarbeid
Bontouch AB
Veileder
Examiner
Tilgjengelig fra: 2024-10-01 Laget: 2024-09-03 Sist oppdatert: 2024-10-01bibliografisk kontrollert

Open Access i DiVA

fulltext(2537 kB)187 nedlastinger
Filinformasjon
Fil FULLTEXT01.pdfFilstørrelse 2537 kBChecksum SHA-512
a545c23e1268b1b5ddc2992c3562c220dbd456babaf784f1ae3afadd07cac8680897fbdd2f039fda64a89b7d72607032639c66d2bd76a4e6cb522caa48212277
Type fulltextMimetype application/pdf

Av organisasjonen

Søk utenfor DiVA

GoogleGoogle Scholar
Totalt: 187 nedlastinger
Antall nedlastinger er summen av alle nedlastinger av alle fulltekster. Det kan for eksempel være tidligere versjoner som er ikke lenger tilgjengelige

urn-nbn

Altmetric

urn-nbn
Totalt: 422 treff
RefereraExporteraLink to record
Permanent link

Direct link
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annet format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annet språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf