kth.sePublications
Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Evaluating the Performance of Extended Convolutional Networks: A Comparative Study between VGG-16 and VGG-23 for Image Classification
KTH, School of Electrical Engineering and Computer Science (EECS).
KTH, School of Electrical Engineering and Computer Science (EECS).
2024 (English)Independent thesis Basic level (degree of Bachelor), 10 credits / 15 HE creditsStudent thesisAlternative title
Utvärdering av Prestandan hos Förlängda Konvolutionella Nätverk : En jämförande studie mellan VGG-16 och VGG-23 för bildklassificering (Swedish)
Abstract [en]

This thesis examines the differences between the Visual Geometry Group (VGG)-16 model and an extended model, VGG-23, to assess whether adding more layers improves performance or leads to unnecessary complexity for a problem of image classification. The study evaluates both models using key metrics such as accuracy, precision, recall, and F1 score, aiming to determine their predictive effectiveness. The experiments were conducted using the CIFAR-10 dataset, a relatively small and less complex dataset, which may not fully capture the advantages of deeper architectures like VGG-23. The results reveal that VGG-23, which requires significantly more training time (over double that of VGG-16) and has a larger model size (280 MB compared to VGG-16’s 134 MB), does not show proportional improvements in performance. Both models demonstrate similar accuracy and precision in training and testing phases, with VGG-23 slightly outperforming VGG-16 in validation accuracy and precision. However, these minor improvements do not justify the additional computational costs and training time. The findings highlight critical trade-offs between model complexity and performance. While slight enhancements are noted in some metrics, the substantial increase in resources for VGG-23—double the training time and model size—does not translate into significant performance gains. For practical applications, especially those with hardware constraints or requiring efficient deployment, VGG-16 is the more prudent choice due to its balanced mix of high accuracy and operational efficiency. This study underscores the importance of optimizing model architecture for practicality as well as accuracy. Future research should explore the performance of these models on more challenging datasets to provide a more comprehensive assessment of their capabilities. In conclusion, for the tasks and contexts examined, VGG-16 is preferable to the more resource-intensive VGG-23, aligning with the goal of achieving high-performance machine learning models while maintaining computational efficiency.

Abstract [sv]

Denna avhandling undersöker skillnaderna mellan VGG-16-modellen och den utökade VGG-23-modellen för att bedöma om tillägg av fler lager förbättrar prestanda eller leder till onödig komplexitet vid bildklassificeringsproblem. Studien utvärderar båda modellerna med hjälp av nyckelmetriker som noggrannhet, precision, återkallelse och F1-poäng för att fastställa deras prediktiva effektivitet. Experimenten utfördes med CIFAR-10-datasetet, som är ett relativt litet och mindre komplext dataset, vilket kanske inte fullt ut fångar fördelarna med djupare arkitekturer som VGG-23. Resultaten visar att VGG-23, som kräver betydligt mer träningstid (över dubbelt så mycket som VGG-16) och har en större modellstorlek (280 MB jämfört med VGG-16:s 134 MB), inte visar proportionella förbättringar i prestanda. Båda modellerna uppvisar liknande noggrannhet och precision i tränings- och testfaserna, med VGG-23 som något överträffar VGG-16 i valideringsnoggrannhet och precision. Dessa mindre förbättringar motiverar dock inte de extra beräkningskostnaderna och träningstiden. Resultaten belyser kritiska avvägningar mellan modellkomplexitet och prestanda. Trots mindre förbättringar i vissa metriker, leder den betydande ökningen av resurser för VGG-23—dubbel träningstid och modellstorlek— inte till betydande prestandavinster. För praktiska tillämpningar, särskilt de med hårdvarubegränsningar eller som kräver effektiv distribution, är VGG-16 det klokare valet på grund av dess balanserade blandning av hög noggrannhet och operationell effektivitet. Denna studie understryker vikten av att optimera modellarkitekturen för praktisk användning såväl som noggrannhet. Framtida forskning bör undersöka modellernas prestanda på mer krävande dataset för att ge en mer omfattande bedömning av deras kapacitet. Sammanfattningsvis är VGG-16 att föredra framför den mer resurskrävande VGG-23 för de uppgifter och sammanhang som undersökts, i linje med målet att uppnå högpresterande maskininlärningsmodeller samtidigt som man bibehåller beräkningsmässig effektivitet.

Place, publisher, year, edition, pages
2024. , p. 33
Series
TRITA-EECS-EX ; 2024:406
Keywords [en]
Convolutional Networks, Deep Learning, Image Classification
Keywords [sv]
Konvolutionella Nätverk, Djup maskininlärning, Bildklassifiering
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-351210OAI: oai:DiVA.org:kth-351210DiVA, id: diva2:1886717
Supervisors
Examiners
Available from: 2024-09-18 Created: 2024-08-03 Last updated: 2024-09-18Bibliographically approved

Open Access in DiVA

fulltext(462 kB)436 downloads
File information
File name FULLTEXT01.pdfFile size 462 kBChecksum SHA-512
720a501a3845eb3b559c660b5b62c71ec68e7d21ad78d31cae195133e298f02534586f2aba51f439866a51727d3737f41e0d74b5f442ddd975f60925fe6f52dc
Type fulltextMimetype application/pdf

By organisation
School of Electrical Engineering and Computer Science (EECS)
Computer and Information Sciences

Search outside of DiVA

GoogleGoogle Scholar
Total: 436 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 302 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf