Scraping bot detection using machine learning
2022 (English)Independent thesis Basic level (degree of Bachelor), 10 credits / 15 HE credits
Student thesisAlternative title
Botdetektering med hjälp av maskininlärning (Swedish)
Abstract [en]
Illegitimate acquisition and use of data is a problematic issue faced by many organizations operating web servers on the internet today. Despite frameworks of rules to prevent ”scraping bots” from carrying out this action, they have developed advanced methods to continue taking data. Following research into what the problem is and how it can be handled, this report identifies and evaluates how machine learning can be used to detect bots. Since developing and testing a machine learning solution proved difficult, an alternative solution was also developed aiming to polarize (separate) bot and human traffic through behavioral analysis. This particular solution to optimize traffic session classification is presented and discussed, as well as, other key findings which can help in detecting and preventing these unwanted visitors.
Abstract [sv]
Olaglig insamling och användning av data är problematiskt för många organisationer som idag använder sig av webbservrar på internet. Trots ramar av regler för att förhindra ”scraping bots” så har de utvecklat avancerade sätt att komma åt data. Efter forskning om vad problemet är och hur det kan hanteras, identifierar och evaluerar denna rapport hur maskininlärning kan användas för att detektera bottar. Då utvecklingen och testningen av en lösning med hjälp av maskininlärning visade sig bli svårt, utvecklades en alternativ lösning med målet att polarisera (separera) bottrafik och legitim trafik. Denna lösning presenteras och diskuteras i rapporten tillsammans med andra nyckelresultat som kan hjälpa till att upptäcka och förhindra dessa oönskade besökare.
Place, publisher, year, edition, pages
2022. , p. 68
Series
TRITA-EECS-EX ; 2022:355
Keywords [en]
Artificial agents, Bot detection, Machine learning, Data analysis, HTTP requests, ReCaptcha
Keywords [sv]
Artificiella agenter, Detektering av bottar, Maskininlärning, Dataanalys, HTTP förfrågningar, ReCaptcha
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-320391OAI: oai:DiVA.org:kth-320391DiVA, id: diva2:1705061
External cooperation
The Mobile Life AB
Supervisors
Examiners
2022-10-212022-10-202022-10-21Bibliographically approved