kth.sePublications
Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Evaluating Transfer Learning Models on Synthetic Data for Beverage Label Image Retrieval: A Comparative Study
KTH, School of Electrical Engineering and Computer Science (EECS).
2022 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesisAlternative title
Utvärdering av modeller för överföringsinlärning på syntetiska data för bildåtervinning av dryckesstiketter : En jämförelsestudie (Swedish)
Abstract [en]

Information retrieval is a research area that has seen improvements with the development of deep learning and artificial neural networks. The vast amount of image data available today has made it possible to train computer vision models for efficient image search. Content based information retrieval, which is the process of searching for images similar to a query image based on the content, has seen much advancement with the usage of neural network based approaches. Beverage label image retrieval can be considered a special case of the previously mentioned problem; the aim is to find the matching beverage image for the specified query image, contained in the retrieval library. This report evaluates different pretrained computer vision models for the beverage label retrieval task, using a synthetic dataset constructed from a supplied dataset of beverage images. Models of varying size and complexity are evaluated and lastly the effect of adding a segmentation network is studied. Results show promising efficacy of synthetic data for the beverage label retrieval task and both models of larger and smaller sizes perform sufficiently well for practical approaches

Abstract [sv]

Med framgången av djupinlärning har neurala nätverk framgångsrikt tränats och applicerats i informationssökningssytem. Den stora mängd bilddata som idag finns tillgänglig har gjort det möjligt att träna bildigenkänningsmodeller för effektiv bildsökning. Innehållsbaserad informationssökning, vilket är processen av att söka efter bilder baserat på innehållet i självaste bilderna, har sett framgångar med hjälp av lösningar baserade på neurala nätverk. Bildsökning av dryckesetiketter kan anses vara ett specialfall av allmän innehållsbaserad informationssökning. Målet är att hitta den matchande bilden i bildbiblioteket för en specifik bildförfrågan. Denna rapport utvärderar ett flertal förtränade bildigenkänningsmodeller för bildsökning av dryckesetiketter med hjälp av ett syntetiskt dataset. Modeller av varierande storlek och komplexitet utvärderas och till sist studeras effekten av att applicera ett segmenteringsnätverk i processen. Resultaten tyder på en god lämplighet att använda syntetisk data för dryckesetikettsproblemet och att båda större och mindre modeller presterar tillräckligt bra för praktiska implementeringar.

Place, publisher, year, edition, pages
2022. , p. 55
Series
TRITA-EECS-EX ; 2022:303
National Category
Computer Sciences
Identifiers
URN: urn:nbn:se:kth:diva-319874OAI: oai:DiVA.org:kth-319874DiVA, id: diva2:1702206
External cooperation
Bontouch AB
Subject / course
Computer Science
Educational program
Master of Science - Computer Science
Supervisors
Examiners
Available from: 2022-10-11 Created: 2022-10-10 Last updated: 2022-10-11Bibliographically approved

Open Access in DiVA

fulltext(7249 kB)384 downloads
File information
File name FULLTEXT01.pdfFile size 7249 kBChecksum SHA-512
2a1fe3c079db43656b150d9fae6635fc63817753303017687d787311e218453ce0eaafce7d3c310de41ac7dd019a3d0015e8477a27b73cb9e76b756a45c10015
Type fulltextMimetype application/pdf

By organisation
School of Electrical Engineering and Computer Science (EECS)
Computer Sciences

Search outside of DiVA

GoogleGoogle Scholar
Total: 389 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 326 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf