Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • harvard1
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Message-oriented Middleware for Scalable Data Analytics Architectures
KTH, School of Information and Communication Technology (ICT).
2015 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesis
Abstract [en]

The democratization of Internet allowed many more people to use online services and enjoy their benefits. The traffic towards websites became tremendous those recent years, especially with the apparition of social networks. Mobile application, televisions and other non--‐computer devices also get connected to the Internet and use it to provide services to the end--‐users: Video on--‐demand, music streaming and so on. These applications rely on powerful backend servers that handle the requests made by devices and provide statistics and metrics about application usage. These metrics can be generated by aggregating the access logs (e.g. HTTP requests log), logs that are potentially extremely large. Big data tools and analytics, providing a way to handle this huge number of records, come then in hand, as typical client--‐server architectures, with a single database storing all the data, reach their limits in terms of performance and capacity. Data duplication, combined to dedicated and specialized databases storing it, is the key to efficient data handling.

 

How to fill up these databases in an elegant, efficient and scalable manner is the remaining question, and message--‐oriented middleware may be a viable answer. This project aims at exploring the capabilities of such middleware, identifying what are the benefits and the drawbacks in using them and presenting how they can be integrated in a real--‐world application that needs to aggregate events and logs on a large scale. Apache Kafka and RabbitMQ, two message--‐oriented middleware, are benchmarked and compared, on both performance metrics and qualitative criteria. A fully working proof--‐ of--‐concept (of an already--‐existing industry product modified to use a message--‐oriented middleware and a specialized data warehouse system) is developed and presented, to conclude on the usefulness of message--‐oriented middleware when designing scalable data analytics architectures.

Abstract [sv]

Demokratiseringen av Internet har tillåtit många fler att använda online--‐tjänster och deras fördelar. Trafiken till webbsidor har blivit enorm de senaste åren. Speciellt i och med de sociala nätverken. Mobil--‐applikationer, TV--‐apparater och andra enheter ansluter sig i allt större omfattning till Internet och tillhandahåller tjänster till slutanvändare: Video On--‐Demand, strömmande musik o.s.v. Applikationerna förlitar sig på kraftfull infrastruktur som kan hantera de förfrågningar enheterna gör och tillhandahålla statistik och mätetal om applikationernas användning. Dessa mätetal kan skapas genom att aggregera access--‐loggar (ex. HTTP--‐loggar). Dessa loggar är potentiellt väldigt stora. Så kallade Big Data--‐verktyg kan lösa problemet med att hantera denna stora mängd data. Typiskt är dessa verktyg klient--‐server--‐arkitekturer med en enskild, central databas som lagrar all data. Dessa databaser har i regel begränsningar när det gäller prestanda och kapacitet.

 

 Duplicering av data kombinerat med en dedikerad och specialiserad databas är nyckeln till en effektiv lösning på detta problem. Frågan är hur man på ett effektivt, elegant och skalbart sätt fyller dessa databaser med information. Här kan meddelande--‐baserad mellanprogramvara vara en lösning. Det här examensarbetet syftar till att granska hur sådan mellanprogramvara kan integreras i en applikation som används i branschen idag och som behöver aggregera stora mängder loggar. Apache Kafka och RabbitMQ, som är två meddelande--‐baserade mellanprogramvaror, granskas och jämförs. Prestanda och effektivitet av lösningarna testas. En fullständig prototyp skapas. Den baseras på ett befintligt system och ändras för att använda meddelande--‐baserad mellanprogramvara och ett specialiserat Data Warehouse--‐system. Slutligen dras slutsatser om meddelande--‐ baserad mellanprogramvara är effektivt när man vill skapa ett skalbart system för aggregering av loggar.

Place, publisher, year, edition, pages
2015. , 115 p.
Series
TRITA-ICT-EX, 2015:12
Identifiers
URN: urn:nbn:se:kth:diva-167139OAI: oai:DiVA.org:kth-167139DiVA: diva2:813137
Supervisors
Examiners
Available from: 2015-05-21 Created: 2015-05-21 Last updated: 2015-05-21Bibliographically approved

Open Access in DiVA

fulltext(3143 kB)9451 downloads
File information
File name FULLTEXT01.pdfFile size 3143 kBChecksum SHA-512
f7a94f070cfb90c1efeb3400c5be505755b485df81e0a042aa2a96b2d9a184a64f3c36370d2ad3f2911ab4438ae7a7a31004474f786083b0029e48c1f725527b
Type fulltextMimetype application/pdf

By organisation
School of Information and Communication Technology (ICT)

Search outside of DiVA

GoogleGoogle Scholar
Total: 9451 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 836 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • harvard1
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf