kth.sePublikationer KTH
Ändra sökning
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf
Micro-architectural Characterization of Apache Spark on Batch and Stream Processing Workloads
KTH, Skolan för informations- och kommunikationsteknik (ICT), Programvaruteknik och Datorsystem, SCS.ORCID-id: 0000-0002-7510-6286
KTH, Skolan för informations- och kommunikationsteknik (ICT), Programvaruteknik och Datorsystem, SCS.ORCID-id: 0000-0002-9637-2065
KTH, Skolan för informations- och kommunikationsteknik (ICT), Programvaruteknik och Datorsystem, SCS.ORCID-id: 0000-0002-6779-7435
Barcelona Super Computing Center and Technical University of Catalunya.
2016 (Engelska)Konferensbidrag, Publicerat paper (Refereegranskat)
Abstract [en]

While cluster computing frameworks are continuously evolving to provide real-time data analysis capabilities, Apache Spark has managed to be at the forefront of big data analytics for being a unified framework for both, batch and stream data processing. However, recent studies on micro-architectural characterization of in-memory data analytics are limited to only batch processing workloads. We compare the micro-architectural performance of batch processing and stream processing workloads in Apache Spark using hardware performance counters on a dual socket server. In our evaluation experiments, we have found that batch processing and stream processing has same micro-architectural behavior in Spark if the difference between two implementations is of micro-batching only. If the input data rates are small, stream processing workloads are front-end bound. However, the front end bound stalls are reduced at larger input data rates and instruction retirement is improved. Moreover, Spark workloads using DataFrames have improved instruction retirement over workloads using RDDs.

Ort, förlag, år, upplaga, sidor
IEEE, 2016. s. 59-66
Nyckelord [en]
Microarchitectural Performance, Spark Streaming, Workload Characterization
Nationell ämneskategori
Datorsystem
Forskningsämne
Informations- och kommunikationsteknik
Identifikatorer
URN: urn:nbn:se:kth:diva-196123DOI: 10.1109/BDCloud-SocialCom-SustainCom.2016.20ISI: 000392516300009Scopus ID: 2-s2.0-85000885440OAI: oai:DiVA.org:kth-196123DiVA, id: diva2:1046082
Konferens
The 6th IEEE International Conference on Big Data and Cloud Computing
Anmärkning

QC 20161130

Tillgänglig från: 2016-11-11 Skapad: 2016-11-11 Senast uppdaterad: 2024-03-15Bibliografiskt granskad

Open Access i DiVA

Fulltext saknas i DiVA

Övriga länkar

Förlagets fulltextScopus

Person

Awan, Ahsan JavedBrorsson, MatsVlassov, Vladimir

Sök vidare i DiVA

Av författaren/redaktören
Awan, Ahsan JavedBrorsson, MatsVlassov, Vladimir
Av organisationen
Programvaruteknik och Datorsystem, SCS
Datorsystem

Sök vidare utanför DiVA

GoogleGoogle Scholar

doi
urn-nbn

Altmetricpoäng

doi
urn-nbn
Totalt: 591 träffar
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf