Exploring the impact of image resolution on fashion style retrieval using CapsNets and Convolutional Neural Networks: Comparative study between Capsule Network and Convolutional Neural Network
2024 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE credits
Student thesisAlternative title
Undersökning av bildupplösningens inverkan på modeklassificering med Capsule Network och Convolutional Neural Network : Jämförelsestudie mellan CapsNet och CNN (Swedish)
Abstract [en]
Image resolution determines the level of detail in an image, which is crucial for human identification of content. This applies to machine learning models as well, but similar to humans the importance varies depending on the classification task. Understanding how significant the drawbacks are in terms of performance when limiting the image resolution, is important in order to acquire optimization. This thesis investigates the impact of image resolution on fashion style retrieval of fashion images for neural networks, where fashion style retrieval is defined as identification of the overarching fashion style given a fashion image. This is accomplished by comparing the effects on the Convolutional Neural Network, and the Capsule Network. The analysis of the image resolutions was performed by having the models train on the different resolutions of images, and then evaluated at the different resolutions. The resolutions investigated were 7x7, 14x14, 28x28, 64x64, 128x128, 225x225, and the architectures used were Efficient-Caps(Capsnet), VGG11(CNN) and a simple CNN architecture. Evaluation was performed using accuracy and F1-score. Convolutional Network models demonstrated a clear correlation between performance and image resolution, since the variance in performance increased on larger images, i.e. performing worse when evaluated across all image resolutions, while for the Capsule Network, the variance remained random and no clear pattern could be identified. Comparing this to previous work, it is shown that the image resolution appears to have less of an effect on the performance of CNN, compared to other tasks including Endoscopy image classification, as the variance in performance was reported higher in previous studies.
Abstract [sv]
Bildupplösning bestämmer detaljnivån i en bild, vilket är avgörande för mänsklig identifiering av objekt. Detta gäller också för maskininlärningsmodeller, men likt människor så varierar betydelsen av upplösning med uppgiften. Förståelse för hur stora nackdelarna är när bildupplösningen begränsas, är viktigt för att kunna maximera objektidentifiering. Den här avhandlingen undersöker inverkan av upplösning på klädstilsklassificering för neurala nätverk, där klädstilsklassificering är definierad som identifieringen av den övervägande klädstil givet en modebild. Detta uppnås genom att jämföra inverkan av bildupplösningen på modellerna Convolutional Neural Network, och Capsule Network. Analysen av upplösning utfördes genom att träna de olika modellerna på olika upplösningar, för att sedan utvärderas på bilder med olika upplösningar. Upplösningarna som studerades var 7x7, 14x14, 28x28, 64x64, 128x128, 225x225, och arkitekturerna för modellerna var Efficient-Caps(Capsnet), VGG11(CNN) och en CNN-arkitektur. Modellerna utvärderas genom användning av noggrannhet och F1-värde. Convolutional Neural Networks visade en tydlig korrelation mellan prestanda och bildupplösning, där variansen i prestanda ökades när upplösningarna ökades, dvs att den sammanlagda prestationen över alla bildupplösningar blev sämre, medan för Capsule Network var variansen mer slumpmässig och inget tydligt mönster kunde identifieras. Jämfört med tidigare arbeten, visas det att bildupplösningar verkar ha en mindre inverkan på prestandan på CNN, till skillnad från andra klassificeringsuppgifter såsom Endoskopi, då rapporterad varians var uppmätt att vara högre.
Place, publisher, year, edition, pages
2024. , p. 46
Series
TRITA-EECS-EX ; 2024:522
Keywords [en]
Capsule Network, Convolutional Neural Network, Image resolution, Fashion style retrieval, Neural Networks
Keywords [sv]
Capsule Network, Convolutional Neural Network, Bildupplösning, Identifiering av modestil, Neurala Nätverk
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-352601OAI: oai:DiVA.org:kth-352601DiVA, id: diva2:1894750
External cooperation
Bontouch AB
Supervisors
Examiners
2024-10-012024-09-032024-10-01Bibliographically approved