Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • harvard1
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
The Impact of Imbalanced Training Data for Convolutional Neural Networks
KTH, School of Computer Science and Communication (CSC).
KTH, School of Computer Science and Communication (CSC).
2015 (English)Independent thesis Basic level (degree of Bachelor), 10 credits / 15 HE creditsStudent thesis
Abstract [en]

This thesis empirically studies the impact of imbalanced training data on Convolutional Neural Network (CNN) performance in image classification. Images from the CIFAR-10 dataset, a set containing 60 000 images of 10 different classes, are used to create training sets with different distributions between the classes. For example, some sets contain a disproportionately large amount of images of one class, and others contain very few images of one class. These training sets are used to train a CNN, and the networks’ classification performance is measured for each training set. The results show that imbalanced training data can potentially have a severely negative impact on overall performance in CNN, and that balanced training data yields the best results. Following this, oversampling is used on the imbalanced training sets to increase the performances to that of the balanced set. It is concluded that oversampling is a viable way to counter the impact of imbalances in the training data.

Abstract [sv]

Detta kandidatexamensarbete utför en empirisk studie av den påverkan ojämnt fördelad träningsdata har på bildklassificeringsresultat för Convolutional Neural Networks(CNN). Bilder från datamängden CIFAR-10, bestående av 60 000 bilder fördelade mellan 10 klasser, används för att skapa träningsdatamängder med olika fördelningar mellan klasserna. Exempelvis innehåller vissa mängder oproportioneligt många bilder av en klass, medan andra innehåller väldigt få bilder av en klass. Dessa datamängder används för att träna ett CNN, och nätverkets klassificeringsresultat noteras för varje datamängd. Resultaten visar att ojämt fördelad träningsdata kan ha en markant negativ påverkan på de genomsnittliga resultaten för CNN, och att balanserad träningsdata ger bäst resultat. Oversampling används på de ojämnt fördeladade träningsdatamängderna vilket resulterar i samma resultat som för den balanserade träningsdatamängden. Detta visar att oversampling är ett gångbart sätt att motverka effekterna av ojämnt fördelad träningsdata.

Place, publisher, year, edition, pages
2015.
National Category
Computer Science
Identifiers
URN: urn:nbn:se:kth:diva-166451OAI: oai:DiVA.org:kth-166451DiVA: diva2:811111
Supervisors
Examiners
Available from: 2015-05-13 Created: 2015-05-11 Last updated: 2015-05-13Bibliographically approved

Open Access in DiVA

fulltext(883 kB)9196 downloads
File information
File name FULLTEXT01.pdfFile size 883 kBChecksum SHA-512
a5f7e6d394c368903daecbd835caf476511c2e12d1333f3abb95f5eecf6b8dbf1bd559955e381f203d22a1c1f7e82a3f4633c1065b3d0ed405ad950b48211742
Type fulltextMimetype application/pdf

By organisation
School of Computer Science and Communication (CSC)
Computer Science

Search outside of DiVA

GoogleGoogle Scholar
Total: 9196 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 3335 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • harvard1
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf