kth.sePublikationer
Ändra sökning
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf
Application of transfer learning in text classification for small and medium sized web-based enterprises
KTH, Skolan för elektroteknik och datavetenskap (EECS).
KTH, Skolan för elektroteknik och datavetenskap (EECS).
2022 (Engelska)Självständigt arbete på grundnivå (kandidatexamen), 10 poäng / 15 hpStudentuppsats (Examensarbete)Alternativ titel
Tillämpning av förtränade maskininlärningsmodeller för textklassificering i databaserade företag (Svenska)
Abstract [en]

In recent years, the open sourcing of pretrained machine learning models through platforms like Hugging Face has reduced the barriers to entry in big data analysis. This thesis studies the use case of such models for web-based organisations, with a focus on text classification. The use of pretrained models, known as transfer learning, is evaluated against the traditional supervised machine learning approach. As a case study, this report investigates an RSS feed content manager called Feeder which aims to classify their user-read content into 10 predefined categories. Therefore, a naive Bayes model is developed to represent the traditional approach and a pretrained transformer model is used to represent the transfer learning approach. These classifiers are subsequently evaluated separately on efficiency and accuracy. The results indicate that a transfer learning approach yields more accurate predictions, whereas the traditional models may be less computationally intensive. Furthermore, this report analyses the business case for the use of transfer learning through the lens of consumer profiling theory and Porter’s five forces. An interview with Feeder’s chief technical officer suggests that there are unlimited uses of the technology, and with the development of improved processing power and cloud computing its feasibility in practice is substantially improved.

Abstract [sv]

De senaste åren har tillgängligheten till sofistikerade maskininlärningsmetoder ökat markant till följd av att delgivandet av öppen källkod via plattformar som Hugging Face blivit allt vanligare. Detta har lett till att tröskeln för att implementera dessa modeller blivit mycket lägre. Detta arbete utvärderar hur tillämpningen av en av dessa modeller kan underlätta för mindre databaserade företag att utmana företag med stora mängder data och kunskap. Denna metod, även kallad för transfer learning, jämförs med den mer traditionella övervakade maskininlärningsmetodiken. Detta arbete centreras runt en studie av företaget Feeder som hade kunnat stärka sin kundförståelse och värdeerbjudande med hjälp av en textklassificeringsmodell. En databas av miljontals nyhetsartiklar skall klassificeras till en av tio förbestämda kategorier. För att representera den mer traditionella metoden används en klassificerare av typ naive Bayes. Transfer learning representeras av en förtränad transformers-modell. Modellerna utvärderas på både dess effektivitet och förmåga att klassificera korrekt. Resultaten påvisar att transfer learning ger mycket träffsäkrare resultat, medan den mer traditionella modellen är betydligt mindre prestandakrävande. Vidare analyserar arbetet hur användarens lojalitet påverkas av dataföretagens värdeerbjudande. En studie av både konsumentprofilierings-teori och Porters fem krafter genomförs. Feeders IT-chef uttryckte i en intervju att det finns oändligt många användningsområde av teknologin, särskilt med tanke på möjligheterna som molnbaserade exekveringstjänster (cloud computing) erbjuder. Detta möjliggör för transformerns implementation i praktiken, och inte bara teorin.

Ort, förlag, år, upplaga, sidor
2022. , s. 12
Serie
TRITA-EECS-EX ; 2022:350
Nationell ämneskategori
Datavetenskap (datalogi)
Identifikatorer
URN: urn:nbn:se:kth:diva-319197OAI: oai:DiVA.org:kth-319197DiVA, id: diva2:1699434
Handledare
Examinatorer
Tillgänglig från: 2022-09-28 Skapad: 2022-09-28 Senast uppdaterad: 2022-09-28Bibliografiskt granskad

Open Access i DiVA

fulltext(1717 kB)416 nedladdningar
Filinformation
Filnamn FULLTEXT01.pdfFilstorlek 1717 kBChecksumma SHA-512
aa35b28a1ed72ac9e20db8a42c6a526f87c9392918b2c1859f7b4bea81dbe8747dc86aa11b8ba1760b62dbdcbf9d075109b62154081f63c3cce68ce6a80f387f
Typ fulltextMimetyp application/pdf

Av organisationen
Skolan för elektroteknik och datavetenskap (EECS)
Datavetenskap (datalogi)

Sök vidare utanför DiVA

GoogleGoogle Scholar
Totalt: 419 nedladdningar
Antalet nedladdningar är summan av nedladdningar för alla fulltexter. Det kan inkludera t.ex tidigare versioner som nu inte längre är tillgängliga.

urn-nbn

Altmetricpoäng

urn-nbn
Totalt: 393 träffar
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf