Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • harvard1
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Evaluation of web scraping methods: Different automation approaches regarding web scraping using desktop tools
KTH, School of Technology and Health (STH), Medical Engineering, Computer and Electronic Engineering.
2016 (English)Independent thesis Basic level (professional degree), 10 credits / 15 HE creditsStudent thesisAlternative title
Utvärdering av webbskrapningsmetoder : Olika automatiserings metoder kring webbskrapning med hjälp av skrivbordsverktyg (Swedish)
Abstract [en]

A lot of information can be found and extracted from the semantic web in different forms through web scraping, with many techniques emerging throughout time.

This thesis is written with the objective to evaluate different web scraping methods in order to develop an automated, performance reliable, easy implemented and solid extraction process. A number of parameters are set to better evaluate and compare consisting techniques.

A matrix of desktop tools are examined and two were chosen for evaluation. The evaluation also includes the learning of setting up the scraping process with so called agents. A number of links gets scraped by using the presented techniques with and without executing JavaScript from the web sources.

Prototypes with the chosen techniques are presented with Content Grabber as a final solution. The result is a better understanding around the subject along with a cost-effective extraction process consisting of different techniques and methods, where a good understanding around the web sources structure facilitates the data collection. To sum it all up, the result is discussed and presented with regard to chosen parameters. 

Abstract [sv]

En hel del information kan bli funnen och extraherad i olika format från den semantiska webben med hjälp av webbskrapning, med många tekniker som uppkommit med tiden.

Den här rapporten är skriven med målet att utvärdera olika webbskrapnings metoder för att i sin tur utveckla en automatiserad, prestandasäker, enkelt implementerad och solid extraheringsprocess. Ett antal parametrar är definierade för att utvärdera och jämföra befintliga webbskrapningstekniker.

En matris av skrivbords verktyg är utforskade och två är valda för utvärdering. Utvärderingen inkluderar också tillvägagångssättet till att lära sig sätta upp olika webbskrapnings processer med så kallade agenter. Ett nummer av länkar blir skrapade efter data med och utan exekvering av JavaScript från webbsidorna.

Prototyper med de utvalda teknikerna testas och presenteras med webbskrapningsverktyget Content Grabber som slutlig lösning. Resultatet utav det hela är en bättre förståelse kring ämnet samt en prisvärd extraheringsprocess bestående utav blandade tekniker och metoder, där en god vetskap kring webbsidornas uppbyggnad underlättar datainsamlingen. Sammanfattningsvis presenteras och diskuteras resultatet med hänsyn till valda parametrar.

Place, publisher, year, edition, pages
2016. , 56 p.
Series
TRITA-STH, 2016:17
Keyword [en]
web scraping, data extraction, automation, semantic web, business intelligence, DOM parsing, HTML parsing, XPath
Keyword [sv]
webbskrapning, datautvinning, automatisering, semantiska webben, business intelligence, DOM parsing, HTML parsing, XPath
National Category
Computer Vision and Robotics (Autonomous Systems) Engineering and Technology
Identifiers
URN: urn:nbn:se:kth:diva-188418OAI: oai:DiVA.org:kth-188418DiVA: diva2:935060
Subject / course
Computer Technology, Program- and System Development
Educational program
Bachelor of Science in Engineering - Computer Engineering
Supervisors
Examiners
Available from: 2016-09-28 Created: 2016-06-10 Last updated: 2017-01-09Bibliographically approved

Open Access in DiVA

fulltext(10558 kB)32 downloads
File information
File name FULLTEXT03.pdfFile size 10558 kBChecksum SHA-512
aa17e917b40cc2afb7eb5bd1bc5377d646e6e3ccf5eb05d9c40b61492429cdfe4d4582ef72e72bc3cfc790ddd5ae8f2d6025f0277a587fea738dd89583cae6e7
Type fulltextMimetype application/pdf

By organisation
Computer and Electronic Engineering
Computer Vision and Robotics (Autonomous Systems)Engineering and Technology

Search outside of DiVA

GoogleGoogle Scholar
Total: 35 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 263 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • harvard1
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf