1011121314151613 of 18
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • harvard1
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Performance Monitoring, Analysis, and Real-Time Introspection on Large-Scale Parallel Systems
KTH, School of Electrical Engineering and Computer Science (EECS), Computer Science, Computational Science and Technology (CST).ORCID iD: 0000-0001-9693-6265
2020 (English)Doctoral thesis, monograph (Other academic)
Abstract [en]

High-Performance Computing (HPC) has become an important scientific driver. A wide variety of research ranging for example from drug design to climate modelling is nowadays performed in HPC systems. Furthermore, the tremendous computer power of such HPC systems allows scientists to simulate problems that were unimaginable a few years ago. However, the continuous increase in size and complexity of HPC systems is turning the development of efficient parallel software into a difficult task. Therefore, the use of per- formance monitoring and analysis is a must in order to unveil inefficiencies in parallel software. Nevertheless, performance tools also face challenges as a result of the size of HPC systems, for example, coping with huge amounts of performance data generated.

In this thesis, we propose a new model for performance characterisation of MPI applications that tackles the challenge of big performance data sets. Our approach uses Event Flow Graphs to balance the scalability of profiling techniques (generating performance reports with aggregated metrics) with the richness of information of tracing methods (generating files with sequences of time-stamped events). In other words, graphs allow to encode ordered se- quences of events without storing the whole sequence of such events, and therefore, they need much less memory and disk space, and are more scal- able. We demonstrate in this thesis how our Event Flow Graph model can be used as a trace compression method. Furthermore, we propose a method to automatically detect the structure of MPI applications using our Event Flow Graphs. This knowledge can afterwards be used to collect performance data in a smarter way, reducing for example the amount of redundant data collected. Finally, we demonstrate that our graphs can be used beyond trace compression and automatic analysis of performance data. We propose a new methodology to use Event Flow Graphs in the task of visual performance data exploration.

In addition to the Event Flow Graph model, we also explore in this thesis the design and use of performance data introspection frameworks. Future HPC systems will be very dynamic environments providing extreme levels of parallelism, but with energy constraints, considerable resource sharing, and heterogeneous hardware. Thus, the use of real-time performance data to or- chestrate program execution in such a complex and dynamic environment will be a necessity. This thesis presents two different performance data introspec- tion frameworks that we have implemented. These introspection frameworks are easy to use, and provide performance data in real time with very low overhead. We demonstrate, among other things, how our approach can be used to reduce in real time the energy consumed by the system.

The approaches proposed in this thesis have been validated in different HPC systems using multiple scientific kernels as well as real scientific applica- tions. The experiments show that our approaches in performance character- isation and performance data introspection are not intrusive at all, and can be a valuable contribution to help in the performance monitoring of future HPC systems.

Abstract [sv]

HPC (högpresterande datorer) har idag blivit ett nödvändigt verktyg för stora forskningsprojekt inom olika områden såsom läkemedelsdesign, klimat- modellering mm. Den enorma datorkraften hos HPC-system har dessutom gjort det möjligt för forskare att simulera problem som var otänkbara för en- dast några år sedan. Det finns dock ett problem. Den ökande komplexiteten hos HPC-system medför att utvecklingen av effektiv mjukvara kapabel att ut- nyttja dessa resurser blir utmanande. Användningen av prestandaövervakning och mjukvaruanalys måste därför spela en viktig roll för att avslöja prestand- aproblem i parallella system. Utveckling av prestandaverktyg står dock också inför liknande utmaningar och måste kunna hantera allt växande mängder genererade data.

I denna avhandling föreslår vi en ny modell för prestandakaraktärisering av MPI applikationer för att försöka lösa problemet med stora datamängder. Vår metod använder sig av “Event Flow” grafer för att balansera mellan skal- barheten av profileringsmetoder, dvs prestandadata av aggregerade mätvär- den, med informationen från spårningsmetoder, dvs filer med tidsstämplade händelser. Dessa grafer tillåter oss att koda händelserna och därmed minskar behovet av lagring, vilket leder till utnyttjande av mycket mindre minne och diskutrymme, och slutligen till ökad skalbarhet. Vi demonstrerar även i denna avhandling hur vår “Event Flow” grafmodell kan användas för spårkompri- mering. Dessutom föreslår vi en ny metod som använder “Event Flow” grafer för att automatiskt undersöka strukturen hos MPI-applikationer. Denna kun- skap kan i efterhand användas för att samla in prestandadata på ett smartare sätt och minskar mängden redundanta data som samlas in. Slutligen visar vi att våra grafer kan användas inom andra områden, utöver spårkomprime- ring och automatiskt analys av prestandadata, dvs för att utforska visuella prestandadata.

Förutom ”Event Flow” grafer undersöker vi i denna avhandling även de- signen och användningen av ramverk för introspektion av prestanda. Framtida HPC-system kommer att vara mycket dynamiska miljöer kapabla till extrema nivåer av parallelism, men med en begränsad energikonsumtion, betydande resursfördelning och heterogen hårdvara. Användningen av realtidsdata för att orkestrera exekvering av program i så komplexa och dynamiska miljöer kommer att bli en nödvändighet. Den här avhandlingen presenterar två oli- ka ramverk för introspektion av prestandadata. Dessa ramverk är enkla att använda, ger prestandadata i realtid och kräver få resurser. Vi demonstrerar bland annat hur vårt tillvägagångssätt kan användas för att i realtid minska systemets energikonsumtion.

De metoder som föreslås i denna avhandling har bekräftats på olika stor- skaliga HPC-system med många kärnor såväl som gentemot nutida vetenskap- liga applikationer. Experimenten visar att våra metoder, när det gäller pre- standakarakterisering och introspektion av prestandadata, inte är resurskrä- vande och kan bidra till prestandaövervakning av framtida HPC-system.

Place, publisher, year, edition, pages
KTH Royal Institute of Technology, 2020. , p. 139
Series
TRITA-EECS-AVL ; 2020:1
Keywords [en]
HPC, performance analysis, performance monitoring, performance introspection, parallel computing
National Category
Computer Systems
Research subject
Computer Science
Identifiers
URN: urn:nbn:se:kth:diva-264421ISBN: 978-91-7873-354-5 (print)OAI: oai:DiVA.org:kth-264421DiVA, id: diva2:1373433
Public defence
2020-01-09, F3, Lindstedtsvägen 26, Stockholm, 10:00 (English)
Opponent
Supervisors
Note

QC20191127

Available from: 2019-11-27 Created: 2019-11-27 Last updated: 2019-12-02Bibliographically approved

Open Access in DiVA

fulltext(4561 kB)22 downloads
File information
File name FULLTEXT01.pdfFile size 4561 kBChecksum SHA-512
09fc6a3dc1390a8db132ded97ce7657e6e9af6e1136c9cf29a33dca996b4503a0810ad074c7581377c88164a6d663d3ef5b8ef945ebe2a6c0e9ee6c1e0e46405
Type fulltextMimetype application/pdf

Search in DiVA

By author/editor
Aguilar, Xavier
By organisation
Computational Science and Technology (CST)
Computer Systems

Search outside of DiVA

GoogleGoogle Scholar
Total: 22 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

isbn
urn-nbn

Altmetric score

isbn
urn-nbn
Total: 99 hits
1011121314151613 of 18
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • harvard1
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf