Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • harvard1
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Batch Processing in Hydra using a Scalable Distributed System.
KTH, School of Computer Science and Communication (CSC).
2012 (English)Independent thesis Advanced level (professional degree), 20 credits / 30 HE creditsStudent thesis
Abstract [en]

The data available on the Internet is constantly increasing, this increase implies that services like search engines have more data to process. To improve the ability to find the desired data, the searchable data can be pre-processed before being indexed by the search engine. One way to view this process is by sending documents through a series of processing stages, often called a pipeline. These stages compute algorithms on each document and add the resulting data to the document. The resulting data can then be used by the search engine to improve the ability to find the processed document.

It is crucial that the time it takes to process documents through a pipeline is minimized. Documents requiring data from all other documents in the set are time consuming and have a negative affect on the throughput in a pipeline. These type of processing algorithms are appropriate to run in a batch, called a batch job.

Hydra is a pipeline software developed by Findwise, and does not have a solution for performing these kind of batch job processing stages. This thesis examines and provides a model to perform these kind of batch jobs in the Hydra pipeline. The model uses a scalable distributed system, which is loosely coupled with the Hydra pipeline, to compute the batch job.

After implementing the model using Hydra and Hadoop, the implementation is tested and shows that batch jobs can be included in the pipeline without causing bottlenecks in the pipeline. The throughput is maintained compared to stages not using data from all other documents in the set.

Abstract [sv]

Mängden data tillgänglig på Internet ökar konstant. Denna ökning innebär att tjänster som sökmotorer har mer data att bearbeta. För att förbättra möjligheten att hitta önskad data via en sökmotor, kan den sökbara datan bearbetas innan den skickas till sökmotorn för att indexeras. Ett sätt att se denna bearbetning innan indexering är att dokument skickas till en rad steg som är sammankopplade i en serie, ofta kallat en pipeline. Dessa steg beräknar olika typer av metriker som läggs in i varje document. Dessa metriker kan sedan användas av sökmotorns indexerare för att förbättra sökresultaten.

Det är viktigt att tiden det tar att bearbeta dokument via pipelinen minimeras. Bearbetningsalgoritmer som kräver data från alla dokument i mängden dokument är tidskrävande och har därmed en negativ effekt på genomflödet av dokument i pipelinen. Denna typ av algoritmer är lämpliga att köra i en omgång, där flera dokument bearbetas samtidigt, kallat ett batch-jobb.

Hydra är ett pipeline verktyg utvecklat av Findwise, och har inte någon lösning för att innehålla steg som kör batch-jobb. Detta examensarbete föreslår en modell för att utföra denna typ av batch-jobb i Hydra. Modellen använder sig av ett skalbart distribuerat system för att utföra själva batch-jobbet.

Implementationen använder sig av Hydra och Hadoop. Implementationen testades där resultatet visar att batch-jobb kan inkluderas i Hydra utan att skapa flaskhalsar i pipelinen. Genomflödet är bevarad i jämförelse till steg som inte använder sig av data från alla dokument i mängden dokument.

Place, publisher, year, edition, pages
2012.
Series
Trita-CSC-E, ISSN 1653-5715 ; 2012:074
National Category
Computer Science
Identifiers
URN: urn:nbn:se:kth:diva-130957OAI: oai:DiVA.org:kth-130957DiVA: diva2:654403
Educational program
Master of Science in Engineering - Computer Science and Technology
Uppsok
Technology
Supervisors
Examiners
Available from: 2013-10-07 Created: 2013-10-07

Open Access in DiVA

No full text

Other links

http://www.nada.kth.se/utbildning/grukth/exjobb/rapportlistor/2012/rapporter12/klich_matteus_12074.pdf
By organisation
School of Computer Science and Communication (CSC)
Computer Science

Search outside of DiVA

GoogleGoogle Scholar

urn-nbn

Altmetric score

urn-nbn
Total: 16 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • harvard1
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf