Using Semi-Supervised Learning for Email Classification
2022 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE credits
Student thesisAlternative title
Semi-vägledd inlärning för klassificering av e-postbrev (Swedish)
Abstract [en]
In this thesis, we investigate the use of self-training, a semi-supervised learning method, to improve binary classification of text documents. This means making use of unlabeled samples, since labeled samples can be expensive to generate. More specifically, we want to classify emails that are retrieved by Skandinaviska Enskilda Banken (SEB). The method is tested on two datasets: the first is IMDB reviews, consisting of both labeled (good or bad) and unlabeled movie reviews; the second is provided by SEB and consists of labeled and unlabeled emails. First, supervised learning was investigated. Three different vectorization methods including two bag-of-words models and one doc2vec model were included. These were tested using five different machine learning classification methods. The comparison of the F1-score showed that doc2vec vectorization and the logistic regression classification method performed well and was used in the self-training investigation. We find that self-training on the IMDB dataset only yielded improvement for low number of labeled samples. For the SEB dataset we find that by using self-training, we can achieve the same F1-score using only around 1000 labeled samples (less than 10% of the labeled dataset), as using supervised methods on the full labeled set. We conclude that self-training can improve classification performance and also be used indirectly to reduce manual labeling efforts.
Abstract [sv]
I denna rapport undersöker vi användningen av self-training, en metod för semi-vägledd inlärning, för att förbättra binär klassificering av textdokument. Mer specifikt vill vi klassificera e-postbrev som hämtats av Skandinaviska Enskilda Banken (SEB). Målet är att kunna nyttja stora mängder omärkt data, eftersom att märka datapunkter kan vara dyrt. Metoden prövas på två datamängder: den första är IMDB-recensioner, bestående av både märkta (bra eller dåliga) och omärkta filmrecensioner; den andra datamängden tillhandahålls av SEB och består också av märkta och omärkta e-postbrev (relevanta och irrelevanta). Först prövas supervised learning. Tre olika vektoriseringsmetoder inklusive två bag-of-words-modeller och en doc2vec-modell inkluderas. Dessa testades med hjälp av fem olika klassificeringsmetoder för maskininlärning. Jämförelsen av F1-metriken visade att doc2vec-vektorisering och den logistisk regression fungerade bra och användes för semi-vägledd inlärning. Vi finner att self-training på IMDB-datamängden endast gav förbättring för ett lågt antal märkta datapunkter. För datamängden från SEB finner vi att genom att använda self-training kan vi uppnå samma F1-metrikvärde med endast 1000 märkta datapunkter (mindre än 10% av den märkta datamängden), som att använda metoder för vägledd inlärning på den fullständiga märkta datamängden. Vi drar slutsatsen att self-training förbättrar klassificering och kan användas för att minska mängden data som behöver märkas manuellt.
Place, publisher, year, edition, pages
2022. , p. 42
Series
TRITA-SCI-GRU ; 2022:332
Keywords [en]
applied mathematics, semi-supervised learning, self-training, doc2vec, classification
Keywords [sv]
tillämpad matematik, semi-vägledd inlärning, self-training, doc2vec, klassificering
National Category
Other Mathematics
Identifiers
URN: urn:nbn:se:kth:diva-323866OAI: oai:DiVA.org:kth-323866DiVA, id: diva2:1736994
External cooperation
Skandinaviska Enskilda Banken AB
Subject / course
Mathematics
Educational program
Master of Science - Applied and Computational Mathematics
Supervisors
Examiners
2023-02-222023-02-152023-02-22Bibliographically approved