Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • harvard1
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Exploiting Redundancy and Asynchrony in Forward Exact Recoveries for Iterative Solvers
KTH, School of Information and Communication Technology (ICT).
2014 (English)Independent thesis Advanced level (professional degree), 20 credits / 30 HE creditsStudent thesis
Abstract [en]

This report presents a method to recover from faults detected by hardware in numerical iterative solvers.

By exploiting redundancy inherent to an iterative solver instead of adding redundancy, we can interpolate lost data and thus devise an exact recovery scheme, which does not compromise mathematical convergence properties of the solver as methods based on restart would do. We rely on a task-based programming model to overlap the furthering of normal computation and recovery.

Results show a low overhead with no fault injection, that could be reduced even more with better lower-level support for application level resilience, and exceptional performance when faults are injected, even under with extremely high fault injection rates.

This is a huge improvement on checkpoint-based recovery methods, and progress towards the goal of resilient and asynchronous HPC methods for exascale computing.

Abstract [sv]

Den här rapporten presenterar en metod för återhämtning från fel detekterad av maskinvara, i numeriska iterativa lösare.

Genom att utnyttja den redundans som finns i dessa lösare i stället för att lägga till redundans, kan vi interpolera förlorad data och därmed utforma ett exakt återvinningssystem utan checkpoints-kostnader. Exakta återvinningssystem äventyrar inte lösarnas matematiska konvergensegenskaper, vilket metoder baserade på återstart skulle göra. Vi användar en task-baserad programmeringsmodell för att överlappa framsteg av normala beräkninger och återhämtning.

Resultaten uppvisar en låg kostnad utan förekomst av fel, vilka kan minskas ännu mer med bättre stöd från lägre nivåer för applikationsnivå-feltolerans, och exceptionell prestanda när fel injiceras, även under extremt höga felinjiceringsfrekvenser.

Detta är en enorm förbättring jämförd med checkpoint-baserade återhämtningsmetoder, och ett framsteg mot målet för motståndskraftiga och asynkrona HPC metoder för exascale.

Place, publisher, year, edition, pages
2014. , 64 p.
Series
TRITA-ICT-EX, 2014:156
National Category
Computer and Information Science
Identifiers
URN: urn:nbn:se:kth:diva-177387OAI: oai:DiVA.org:kth-177387DiVA: diva2:872602
Examiners
Available from: 2015-11-19 Created: 2015-11-19 Last updated: 2017-08-03Bibliographically approved

Open Access in DiVA

fulltext(1895 kB)8 downloads
File information
File name FULLTEXT01.pdfFile size 1895 kBChecksum SHA-512
04748657445a67733000c8e701415439a2d40dd0e4418422421c8041514bf27aa0bce09a8c63a983fe46b4bd4e36bac4f9c48ca82a4305bd32f82ca1f9d3460a
Type fulltextMimetype application/pdf

By organisation
School of Information and Communication Technology (ICT)
Computer and Information Science

Search outside of DiVA

GoogleGoogle Scholar
Total: 8 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 13 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • harvard1
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf