Ändra sökning
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • harvard1
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf
Evaluation of web scraping methods: Different automation approaches regarding web scraping using desktop tools
KTH, Skolan för teknik och hälsa (STH), Medicinsk teknik, Data- och elektroteknik.
2016 (Engelska)Självständigt arbete på grundnivå (yrkesexamen), 10 poäng / 15 hpStudentuppsats (Examensarbete)Alternativ titel
Utvärdering av webbskrapningsmetoder : Olika automatiserings metoder kring webbskrapning med hjälp av skrivbordsverktyg (Svenska)
Abstract [en]

A lot of information can be found and extracted from the semantic web in different forms through web scraping, with many techniques emerging throughout time.

This thesis is written with the objective to evaluate different web scraping methods in order to develop an automated, performance reliable, easy implemented and solid extraction process. A number of parameters are set to better evaluate and compare consisting techniques.

A matrix of desktop tools are examined and two were chosen for evaluation. The evaluation also includes the learning of setting up the scraping process with so called agents. A number of links gets scraped by using the presented techniques with and without executing JavaScript from the web sources.

Prototypes with the chosen techniques are presented with Content Grabber as a final solution. The result is a better understanding around the subject along with a cost-effective extraction process consisting of different techniques and methods, where a good understanding around the web sources structure facilitates the data collection. To sum it all up, the result is discussed and presented with regard to chosen parameters. 

Abstract [sv]

En hel del information kan bli funnen och extraherad i olika format från den semantiska webben med hjälp av webbskrapning, med många tekniker som uppkommit med tiden.

Den här rapporten är skriven med målet att utvärdera olika webbskrapnings metoder för att i sin tur utveckla en automatiserad, prestandasäker, enkelt implementerad och solid extraheringsprocess. Ett antal parametrar är definierade för att utvärdera och jämföra befintliga webbskrapningstekniker.

En matris av skrivbords verktyg är utforskade och två är valda för utvärdering. Utvärderingen inkluderar också tillvägagångssättet till att lära sig sätta upp olika webbskrapnings processer med så kallade agenter. Ett nummer av länkar blir skrapade efter data med och utan exekvering av JavaScript från webbsidorna.

Prototyper med de utvalda teknikerna testas och presenteras med webbskrapningsverktyget Content Grabber som slutlig lösning. Resultatet utav det hela är en bättre förståelse kring ämnet samt en prisvärd extraheringsprocess bestående utav blandade tekniker och metoder, där en god vetskap kring webbsidornas uppbyggnad underlättar datainsamlingen. Sammanfattningsvis presenteras och diskuteras resultatet med hänsyn till valda parametrar.

Ort, förlag, år, upplaga, sidor
2016. , s. 56
Serie
TRITA-STH ; 2016:17
Nyckelord [en]
web scraping, data extraction, automation, semantic web, business intelligence, DOM parsing, HTML parsing, XPath
Nyckelord [sv]
webbskrapning, datautvinning, automatisering, semantiska webben, business intelligence, DOM parsing, HTML parsing, XPath
Nationell ämneskategori
Datorseende och robotik (autonoma system) Teknik och teknologier
Identifikatorer
URN: urn:nbn:se:kth:diva-188418OAI: oai:DiVA.org:kth-188418DiVA, id: diva2:935060
Ämne / kurs
Datateknik, program- och systemutveckling
Utbildningsprogram
Högskoleingenjörsexamen - Datateknik
Handledare
Examinatorer
Tillgänglig från: 2016-09-28 Skapad: 2016-06-10 Senast uppdaterad: 2018-01-10Bibliografiskt granskad

Open Access i DiVA

fulltext(10558 kB)75 nedladdningar
Filinformation
Filnamn FULLTEXT03.pdfFilstorlek 10558 kBChecksumma SHA-512
aa17e917b40cc2afb7eb5bd1bc5377d646e6e3ccf5eb05d9c40b61492429cdfe4d4582ef72e72bc3cfc790ddd5ae8f2d6025f0277a587fea738dd89583cae6e7
Typ fulltextMimetyp application/pdf

Av organisationen
Data- och elektroteknik
Datorseende och robotik (autonoma system)Teknik och teknologier

Sök vidare utanför DiVA

GoogleGoogle Scholar
Totalt: 78 nedladdningar
Antalet nedladdningar är summan av nedladdningar för alla fulltexter. Det kan inkludera t.ex tidigare versioner som nu inte längre är tillgängliga.

urn-nbn

Altmetricpoäng

urn-nbn
Totalt: 375 träffar
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • harvard1
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf