Ändra sökning
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • harvard1
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf
Visual Debugging of Dataflow Systems
KTH, Skolan för informations- och kommunikationsteknik (ICT).
2017 (Engelska)Självständigt arbete på avancerad nivå (masterexamen), 20 poäng / 30 hpStudentuppsats (Examensarbete)
Abstract [en]

Big data processing has seen vast integration into the idea of data analysis in live streaming and batch environments. A plethora of tools have been developed to break down a problem into manageable tasks and to allocate both software and hardware resources in a distributed and fault tolerant manner. Apache Spark is one of the most well known platforms for large-scale cluster computation. In SICS Swedish ICT, Spark runs on top of an in-house developed solution. HopsWorks provides a graphical user interface to the Hops platform that aims to simplify the process of configuring a Hadoop environment and improving upon it. The user interface includes, among other capabilities, an array of tools for executing distributed applications such as Spark, TensorFlow, Flink with a variety of input and output sources, e.g. Kafka, HDFS files etc.

Currently the available tools to monitor and instrument a stack that includes the aforementioned technologies come from both the corporate and open source world. The former is usually part of a bigger family of products running on proprietary code. In contrast, the latter offers a wider variety of choices with the most prominent ones lacking either the flexibility in exchange for a more generic approach or the ease of gaining meaningful insight except of the most experienced users.

The contribution of this project is a visualization tool in the form of a web user interface, part of the Hops platform, for understanding, debugging and ultimately optimizing the resource allocation and performance of dataflow applications. These processes are based both on the abstraction provided by the dataflow programming paradigm and on systems concepts such as properties of data, how much variability in the data, computation, distribution, and other system wide resources.

Abstract [sv]

Behandling av stora datamängder har på senare tid blivit en viktig del av data analys i strömning och batch-processering. En uppsjö av verktyg har blivit framtagna för att bryta ner problem till mindre uppgifter och för att använda såväl hårdvara som mjukvara på ett distribuerat och fel tolerant sätt. Apache Spark är en av de mest kända plattformarna för beräkningar på storskaliga kluster. På SICS Swedish ICT, används Spark på deras egna lösning. HopsWorks tillhandahåller ett grafiskt gränssnitt för Hops plattformen med målet att förenkla processen att konfiguera Hadoop miljön och förbättra den. Användargränssnittet inkluderar, utöver annan funktionalitet, ett flertal verktyg för att exekvera distribuerade applikationer såsom Spark, TensorFlow, Flink med ett antal olika datakällor såsom Kafka och HDFS.

De verktyg som finns för att övervaka den tidigarenämnda teknologi-stacken kommer från både företag och öppna källkod projekt. Den tidigare är vanligtvis en del av en större familj med produkter som kör på proprietär kod. I kontrast mot den senare, som erbjuder en större mängd med val där de viktigaste har bristande flexibilitet i utbyte mot ett mer generiskt tillvägagångssätt eller enkelhet att få nyttig information förutom för de mest erfarna användarna.

Bidraget från det här projektet är ett visualiseringsspråk i form av ett webbanvändargränssnitt, integrerat med Hops plattformen, för förståelse, felsökning och i slutändan kunna optimera resursallokering och prestanda för dataflödesapplikationer. Dessa processer är baserade på både abstraktionen från dataflöde programmerings paradigmen och på systemkoncept såsom dataegenskaper, datavariabilitet, beräkning, distribution och andra systemegenskaper.

Ort, förlag, år, upplaga, sidor
2017. , s. 62
Serie
TRITA-ICT-EX ; 2017:152
Nationell ämneskategori
Datavetenskap (datalogi)
Identifikatorer
URN: urn:nbn:se:kth:diva-222376OAI: oai:DiVA.org:kth-222376DiVA, id: diva2:1181210
Ämne / kurs
Datalogi
Utbildningsprogram
Teknologie masterexamen - Programvaruteknik för distribuerade system
Handledare
Examinatorer
Tillgänglig från: 2018-02-08 Skapad: 2018-02-08 Senast uppdaterad: 2018-02-08Bibliografiskt granskad

Open Access i DiVA

fulltext(1439 kB)107 nedladdningar
Filinformation
Filnamn FULLTEXT01.pdfFilstorlek 1439 kBChecksumma SHA-512
e3e21481d5b5367d071da5d89bfcbe6a408f4d016cc3ca73cf7ef93453fff6c38550124f4e4a422ae83729df357d0830be1298b3dfa9a6bda47f1ee05449fb33
Typ fulltextMimetyp application/pdf

Av organisationen
Skolan för informations- och kommunikationsteknik (ICT)
Datavetenskap (datalogi)

Sök vidare utanför DiVA

GoogleGoogle Scholar
Totalt: 107 nedladdningar
Antalet nedladdningar är summan av nedladdningar för alla fulltexter. Det kan inkludera t.ex tidigare versioner som nu inte längre är tillgängliga.

urn-nbn

Altmetricpoäng

urn-nbn
Totalt: 463 träffar
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • harvard1
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf