kth.sePublikationer
Ändra sökning
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf
Evaluating the Performance of Extended Convolutional Networks: A Comparative Study between VGG-16 and VGG-23 for Image Classification
KTH, Skolan för elektroteknik och datavetenskap (EECS).
KTH, Skolan för elektroteknik och datavetenskap (EECS).
2024 (Engelska)Självständigt arbete på grundnivå (kandidatexamen), 10 poäng / 15 hpStudentuppsats (Examensarbete)Alternativ titel
Utvärdering av Prestandan hos Förlängda Konvolutionella Nätverk : En jämförande studie mellan VGG-16 och VGG-23 för bildklassificering (Svenska)
Abstract [en]

This thesis examines the differences between the Visual Geometry Group (VGG)-16 model and an extended model, VGG-23, to assess whether adding more layers improves performance or leads to unnecessary complexity for a problem of image classification. The study evaluates both models using key metrics such as accuracy, precision, recall, and F1 score, aiming to determine their predictive effectiveness. The experiments were conducted using the CIFAR-10 dataset, a relatively small and less complex dataset, which may not fully capture the advantages of deeper architectures like VGG-23. The results reveal that VGG-23, which requires significantly more training time (over double that of VGG-16) and has a larger model size (280 MB compared to VGG-16’s 134 MB), does not show proportional improvements in performance. Both models demonstrate similar accuracy and precision in training and testing phases, with VGG-23 slightly outperforming VGG-16 in validation accuracy and precision. However, these minor improvements do not justify the additional computational costs and training time. The findings highlight critical trade-offs between model complexity and performance. While slight enhancements are noted in some metrics, the substantial increase in resources for VGG-23—double the training time and model size—does not translate into significant performance gains. For practical applications, especially those with hardware constraints or requiring efficient deployment, VGG-16 is the more prudent choice due to its balanced mix of high accuracy and operational efficiency. This study underscores the importance of optimizing model architecture for practicality as well as accuracy. Future research should explore the performance of these models on more challenging datasets to provide a more comprehensive assessment of their capabilities. In conclusion, for the tasks and contexts examined, VGG-16 is preferable to the more resource-intensive VGG-23, aligning with the goal of achieving high-performance machine learning models while maintaining computational efficiency.

Abstract [sv]

Denna avhandling undersöker skillnaderna mellan VGG-16-modellen och den utökade VGG-23-modellen för att bedöma om tillägg av fler lager förbättrar prestanda eller leder till onödig komplexitet vid bildklassificeringsproblem. Studien utvärderar båda modellerna med hjälp av nyckelmetriker som noggrannhet, precision, återkallelse och F1-poäng för att fastställa deras prediktiva effektivitet. Experimenten utfördes med CIFAR-10-datasetet, som är ett relativt litet och mindre komplext dataset, vilket kanske inte fullt ut fångar fördelarna med djupare arkitekturer som VGG-23. Resultaten visar att VGG-23, som kräver betydligt mer träningstid (över dubbelt så mycket som VGG-16) och har en större modellstorlek (280 MB jämfört med VGG-16:s 134 MB), inte visar proportionella förbättringar i prestanda. Båda modellerna uppvisar liknande noggrannhet och precision i tränings- och testfaserna, med VGG-23 som något överträffar VGG-16 i valideringsnoggrannhet och precision. Dessa mindre förbättringar motiverar dock inte de extra beräkningskostnaderna och träningstiden. Resultaten belyser kritiska avvägningar mellan modellkomplexitet och prestanda. Trots mindre förbättringar i vissa metriker, leder den betydande ökningen av resurser för VGG-23—dubbel träningstid och modellstorlek— inte till betydande prestandavinster. För praktiska tillämpningar, särskilt de med hårdvarubegränsningar eller som kräver effektiv distribution, är VGG-16 det klokare valet på grund av dess balanserade blandning av hög noggrannhet och operationell effektivitet. Denna studie understryker vikten av att optimera modellarkitekturen för praktisk användning såväl som noggrannhet. Framtida forskning bör undersöka modellernas prestanda på mer krävande dataset för att ge en mer omfattande bedömning av deras kapacitet. Sammanfattningsvis är VGG-16 att föredra framför den mer resurskrävande VGG-23 för de uppgifter och sammanhang som undersökts, i linje med målet att uppnå högpresterande maskininlärningsmodeller samtidigt som man bibehåller beräkningsmässig effektivitet.

Ort, förlag, år, upplaga, sidor
2024. , s. 33
Serie
TRITA-EECS-EX ; 2024:406
Nyckelord [en]
Convolutional Networks, Deep Learning, Image Classification
Nyckelord [sv]
Konvolutionella Nätverk, Djup maskininlärning, Bildklassifiering
Nationell ämneskategori
Data- och informationsvetenskap
Identifikatorer
URN: urn:nbn:se:kth:diva-351210OAI: oai:DiVA.org:kth-351210DiVA, id: diva2:1886717
Handledare
Examinatorer
Tillgänglig från: 2024-09-18 Skapad: 2024-08-03 Senast uppdaterad: 2024-09-18Bibliografiskt granskad

Open Access i DiVA

fulltext(462 kB)469 nedladdningar
Filinformation
Filnamn FULLTEXT01.pdfFilstorlek 462 kBChecksumma SHA-512
720a501a3845eb3b559c660b5b62c71ec68e7d21ad78d31cae195133e298f02534586f2aba51f439866a51727d3737f41e0d74b5f442ddd975f60925fe6f52dc
Typ fulltextMimetyp application/pdf

Av organisationen
Skolan för elektroteknik och datavetenskap (EECS)
Data- och informationsvetenskap

Sök vidare utanför DiVA

GoogleGoogle Scholar
Totalt: 469 nedladdningar
Antalet nedladdningar är summan av nedladdningar för alla fulltexter. Det kan inkludera t.ex tidigare versioner som nu inte längre är tillgängliga.

urn-nbn

Altmetricpoäng

urn-nbn
Totalt: 318 träffar
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf