kth.sePublications
Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Exploring the impact of image resolution on fashion style retrieval using CapsNets and Convolutional Neural Networks: Comparative study between Capsule Network and Convolutional Neural Network
KTH, School of Electrical Engineering and Computer Science (EECS).
2024 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesisAlternative title
Undersökning av bildupplösningens inverkan på modeklassificering med Capsule Network och Convolutional Neural Network : Jämförelsestudie mellan CapsNet och CNN (Swedish)
Abstract [en]

Image resolution determines the level of detail in an image, which is crucial for human identification of content. This applies to machine learning models as well, but similar to humans the importance varies depending on the classification task. Understanding how significant the drawbacks are in terms of performance when limiting the image resolution, is important in order to acquire optimization. This thesis investigates the impact of image resolution on fashion style retrieval of fashion images for neural networks, where fashion style retrieval is defined as identification of the overarching fashion style given a fashion image. This is accomplished by comparing the effects on the Convolutional Neural Network, and the Capsule Network. The analysis of the image resolutions was performed by having the models train on the different resolutions of images, and then evaluated at the different resolutions. The resolutions investigated were 7x7, 14x14, 28x28, 64x64, 128x128, 225x225, and the architectures used were Efficient-Caps(Capsnet), VGG11(CNN) and a simple CNN architecture. Evaluation was performed using accuracy and F1-score. Convolutional Network models demonstrated a clear correlation between performance and image resolution, since the variance in performance increased on larger images, i.e. performing worse when evaluated across all image resolutions, while for the Capsule Network, the variance remained random and no clear pattern could be identified. Comparing this to previous work, it is shown that the image resolution appears to have less of an effect on the performance of CNN, compared to other tasks including Endoscopy image classification, as the variance in performance was reported higher in previous studies.

Abstract [sv]

Bildupplösning bestämmer detaljnivån i en bild, vilket är avgörande för mänsklig identifiering av objekt. Detta gäller också för maskininlärningsmodeller, men likt människor så varierar betydelsen av upplösning med uppgiften. Förståelse för hur stora nackdelarna är när bildupplösningen begränsas, är viktigt för att kunna maximera objektidentifiering. Den här avhandlingen undersöker inverkan av upplösning på klädstilsklassificering för neurala nätverk, där klädstilsklassificering är definierad som identifieringen av den övervägande klädstil givet en modebild. Detta uppnås genom att jämföra inverkan av bildupplösningen på modellerna Convolutional Neural Network, och Capsule Network. Analysen av upplösning utfördes genom att träna de olika modellerna på olika upplösningar, för att sedan utvärderas på bilder med olika upplösningar. Upplösningarna som studerades var 7x7, 14x14, 28x28, 64x64, 128x128, 225x225, och arkitekturerna för modellerna var Efficient-Caps(Capsnet), VGG11(CNN) och en CNN-arkitektur. Modellerna utvärderas genom användning av noggrannhet och F1-värde. Convolutional Neural Networks visade en tydlig korrelation mellan prestanda och bildupplösning, där variansen i prestanda ökades när upplösningarna ökades, dvs att den sammanlagda prestationen över alla bildupplösningar blev sämre, medan för Capsule Network var variansen mer slumpmässig och inget tydligt mönster kunde identifieras. Jämfört med tidigare arbeten, visas det att bildupplösningar verkar ha en mindre inverkan på prestandan på CNN, till skillnad från andra klassificeringsuppgifter såsom Endoskopi, då rapporterad varians var uppmätt att vara högre.

Place, publisher, year, edition, pages
2024. , p. 46
Series
TRITA-EECS-EX ; 2024:522
Keywords [en]
Capsule Network, Convolutional Neural Network, Image resolution, Fashion style retrieval, Neural Networks
Keywords [sv]
Capsule Network, Convolutional Neural Network, Bildupplösning, Identifiering av modestil, Neurala Nätverk
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-352601OAI: oai:DiVA.org:kth-352601DiVA, id: diva2:1894750
External cooperation
Bontouch AB
Supervisors
Examiners
Available from: 2024-10-01 Created: 2024-09-03 Last updated: 2024-10-01Bibliographically approved

Open Access in DiVA

fulltext(2537 kB)179 downloads
File information
File name FULLTEXT01.pdfFile size 2537 kBChecksum SHA-512
a545c23e1268b1b5ddc2992c3562c220dbd456babaf784f1ae3afadd07cac8680897fbdd2f039fda64a89b7d72607032639c66d2bd76a4e6cb522caa48212277
Type fulltextMimetype application/pdf

By organisation
School of Electrical Engineering and Computer Science (EECS)
Computer and Information Sciences

Search outside of DiVA

GoogleGoogle Scholar
Total: 179 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 379 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf