Segmentation of companies using DBSCAN and K-Means
2022 (English)Independent thesis Basic level (degree of Bachelor), 10 credits / 15 HE credits
Student thesisAlternative title
Segmentering av företag med DBSCAN och K-Means (Swedish)
Abstract [en]
Data management and machine learning have become an important tool for organizations around the world, to be able to provide a basis for further processing, for example. This work aims at helping a company with mapping of corporate industries with the help of keywords from companies’ websites. We will do this with machine learning. The essay will consistently explain how this model has been created by describing utilized algorithms, theories, methods and its performance. The work examines the clustering methods K-means and DBSCAN with the vectorization methods TF-IDF and Bag of Words. Evaluation is done using the Silhouette Coefficient (SC) and individual assessment. DBSCAN proves to be a better clustering method on this data set. However, there are problems with the amount of data, for example how distinct the differences are between the companies' keywords. This problem means that the clustering methods create too big uncertainties to allow for it to be used for commercial purposes. It is possible to use this tool for future implementations, but the amount of data must have more distinct differences.
Abstract [sv]
Datahantering och maskininlärning har blivit ett viktigt verktyg för organisationer runt om i världen, för att exempelvis ge underlag för vidareförädling. Detta arbete syftar till att hjälpa ett företag med kartläggning av företagsbranscher med hjälp av nyckelord från bolagens hemsidor. Vi kommer göra detta med maskininlärning. Uppsatsen kommer i detalj att förklara hur denna modell har skapats genom beskrivning av utnyttjade algoritmer, teorier, metoder och dess prestanda. Arbetet undersöker klustringsmetoderna K- means och DBSCAN med vektoriseringsmetoderna TF-IDF och Bag of Words. Utvärdering sker med hjälp av metoden Silhouette Coefficient (SC) samt en individuell bedömning. DBSCAN visar sig vara en bättre klustringsmetod på denna datamängd. Däremot finns det problem i datamängden, det vill säga hur distinkta skillnaderna är mellan företagens nyckelord. Detta problem gör att klustringsmetoderna skapar alltför stora osäkerheter för att kunna användas i kommersiellt syfte. Det är möjligt att använda detta verktyg för framtida implementationer, däremot behöver datamängden ha mer distinkta skillnader.
Place, publisher, year, edition, pages
2022. , p. 13
Series
TRITA-EECS-EX ; 2022:352
National Category
Computer Sciences
Identifiers
URN: urn:nbn:se:kth:diva-319123OAI: oai:DiVA.org:kth-319123DiVA, id: diva2:1699091
Supervisors
Examiners
2022-09-282022-09-262022-09-28Bibliographically approved