Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • harvard1
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Kombinering av webbtjänster givet geografisk position: Med metasökning och webbskrapning
KTH, School of Information and Communication Technology (ICT).
KTH, School of Information and Communication Technology (ICT).
2016 (Swedish)Independent thesis Basic level (professional degree), 10 credits / 15 HE creditsStudent thesis
Abstract [sv]

Den stora mängden information som finns tillgänglig på Internet har lett till att företag i allt större utsträckning försöker utnyttja redan existerande data och funktionalitet för att generera marknadsvärde. Detta är främst tydligt när det kommer till utveckling av nya webbtjänster; allt fler utvecklare väljer att kombinera funktionalitet från redan existerande tjänster för att bygga upp nya och mer komplexa applikationer. Dessa typer av applikationer kallas mashups och möjliggörs genom nyttjande av publika API. Alla webbtjänster med eftersökt funktionalitet erbjuder dock inte öppna system. Detta tvingar utvecklare till att leta efter och utveckla alternativa metoder för att extrahera data och använda funktionalitet av intresse. En metod för denna typ av dataextrahering är webbskrapning.

Syftet med denna rapport är att beskriva hur webbtjänster, givet geografisk position, kan kombineras och därmed användas till att bygga upp en ny webbtjänst. Arbetet begränsades av webbtjänster som inte erbjuder publika API samt Sverige som geografiskt område. En prototyp till en webbapplikation utvecklades som utnyttjade sökfunktionaliteten på Hotels.com respektive Restaurangkartan.se. Användaren kan lokalisera hotell och restauranger i närheten av specificerad geografisk position, i detta projekt golfbanor. De utnyttjade webbtjänsterna valdes utifrån en undersökning av flertalet liknande tjänster där webbsidornas sökformulär samt URL för sökresultaten analyserades. Prototypen utvecklades genom en agil och iterationsbaserad metod med inslag av återanvändningsorienterad systemutveckling.

Arbetet beskrivet i denna rapport har visat att det är möjligt att kombinera webbtjänster som inte erbjuder API, givet geografisk position, genom en kombination av metasökning och webbskrapning. Den resulterande prototypen kan beskrivas som en typ av metasök-mashup som utnyttjar webbskrapning för att extrahera data från de underliggande webbtjänsterna. Arkitekturen består av fyra huvudkomponenter; leverantörer av data, vilka är de underliggande webbtjänster som utnyttjas; applikationsserver, den server på vilken applikationen exekveras och där logiken för metasökning och webbskrapning huserar; klientens webbläsare för grafisk representation av samt interaktion med applikationen; databas för att hålla information om geografisk position samt övrig relevant data.

Avslutningsvis argumenteras det för att webbskrapning inte bör användas i kommersiellt syfte utan alla berörda parters godkännande, främst på grund av de etiska och rättsliga problem metoden kan ge upphov till. Även utvecklarnas totala brist på kontroll över de utnyttjade webbtjänsterna bidrar till att metoden inte kan rekommenderas för hållbart kommersiellt bruk.

Abstract [en]

The large amount of information available on the Internet has resulted in companies trying to use already existing data and functionality to a greater extent in order to generate business value. This is particularly clear when it comes to developing new web services; an increasing number of developers are choosing to combine functionality from already existing services to build new and more complex applications. These kinds of applications are called mashups are made possible through the use of public APIs. However, all web services with sought-after functionality don’t provide open systems. This forces developers to search for and develop alternative methods to extract data and use functionality of interest. One method for this kind of data extraction is web scraping.

The purpose of this thesis is to describe how web services, provided geographic location, can be combined and therefore used to build a new web service. The work was restricted to web services that don’t provide public APIs and to Sweden as geographical area. A prototype to a web application was developed that made use of the search functionality on Hotels.com and Restaurangkartan.se respectively. The user can localize hotels and restaurants in the vicinity of specified geographic location, in this project golf courses. The used web services were chosen based on a survey of several similar services where the web pages’ search forms and URLs for the search results were analyzed. The prototype was developed using an agile and iteration-based method with features from reuse-oriented software development.

The work described in this thesis has shown that it is possible to combine web services that don’t provide APIs, given geographic location, by a combination of meta search and web scraping. The resulting prototype can be described as a type of metasearch mashup that utilizes web scraping to extract data from the underlying web services. The architecture consists of four major components; content providers, which are the underlying web services that are used; application server, the server on which the application is being executed and where the meta search and web scraping logic resides; the client's browser for graphical representation of and interaction with the application; database to hold the information about geographic location and other relevant data.

Finally, it is argued that web scraping should not be used for commercial purposes without all the affected parties’ approval, mainly due to the ethical and legal problems the method may give rise to. Also, the developers’ complete lack of control over the used web services’ functionality contributes to the method not being recommended for sustainable commercial use.

Place, publisher, year, edition, pages
2016. , 60 p.
Series
TRITA-ICT-EX, 2016:157
Keyword [en]
Web services, mashups, web scraping, meta search, combining
Keyword [sv]
Webbtjänster, mashups, webbskrapning, metasökning, kombinering
National Category
Computer and Information Science
Identifiers
URN: urn:nbn:se:kth:diva-205324OAI: oai:DiVA.org:kth-205324DiVA: diva2:1088552
Subject / course
Computer Technology and Software Engineering
Educational program
Bachelor of Science in Engineering - Computer Engineering
Supervisors
Examiners
Available from: 2017-04-13 Created: 2017-04-13 Last updated: 2017-04-24Bibliographically approved

Open Access in DiVA

No full text

By organisation
School of Information and Communication Technology (ICT)
Computer and Information Science

Search outside of DiVA

GoogleGoogle Scholar

Total: 22 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • harvard1
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf