3536373839404138 of 204
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Using machine learning for resource provisioning to run workflow applications in IaaS Cloud
KTH, School of Electrical Engineering and Computer Science (EECS).
2019 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesisAlternative title
Att använda maskininlärning till resursförmedling för att köra arbetsflödesapplikationer i molnet (Swedish)
Abstract [en]

The rapid advancements of cloud computing has made it possible to execute large computations such as scientific workflow applications faster than ever before. Executing workflow applications in cloud computing consists of choosing instances (resource provisioning) and then scheduling (resource scheduling) the tasks to execute on the chosen instances. Due to the fact that finding the fastest execution time (makespan) of a scientific workflow within a specified budget is a NP-hard problem, it is common to use heuristics or metaheuristics to solve the problem.

This thesis investigates the possibility of using machine learning as an alternative way of finding resource provisioning solutions for the problem of scientific workflow execution in the cloud. To investigate this, it is evaluated if a trained machine learning model can predict provisioning instances with solution quality close to that of a state-of-the-art algorithm (PACSA) but in a significantly shorter time. The machine learning models are trained for the scientific workflows Cybershake and Montage using workflow properties as features and solution instances given by the PACSA algorithm as labels. The predicted provisioning instances are scheduled utilizing an independent HEFT scheduler to get a makespan.

It is concluded from the project that it is possible to train a machine learning model to achieve solution quality close to what the PACSA algorithm reports in a significantly shorter computation time and that the best performing models in the thesis were the Decision Tree Regressor (DTR) and the Support Vector Regressor (SVR). This is shown by the fact that the DTR and the SVR on average are able to be only 4.97 % (Cybershake) and 2.43 % (Montage) slower than the PACSA algorithm in terms of makespan while imposing only on average 0.64 % (Cybershake) and 0.82 % (Montage) budget violations. For large workflows (1000 tasks), the models showed an average execution time of 0.0165 seconds for Cybershake and 0.0205 seconds for Montage compared to the PACSA algorithm’s execution times of 57.138 seconds for Cybershake and 44.215 seconds for Montage. It was also found that the models are able to come up with a better makespan than the PACSA algorithm for some problem instances and solve some problem instances that the PACSA algorithm failed to solve. Surprisingly, the ML models are able to even outperform PACSA in 11.5 % of the cases for the Cybershake workflow and 19.5 % of the cases for the Montage workflow.

Abstract [sv]

De snabba framstegen inom molntjänster har gjort det möjligt att genomföra stora beräkningar som exempelvis vetenskapliga arbetsflödesapplikationer snabbare än någonsin. Att köra arbetsflödesapplikationer i molnet består av attvälja instanser(resursförmedling) och sedan schemalägga(resursschemaläggning) de deluppgifter inom arbetsflödet som ska utföras på de valda instanserna. Att hitta den snabbaste exekveringstiden (makespan) för ett vetenskapligt arbetsflöde inom en specificerad budget är ett NP-svårt problem och det är vanligt att använda heuristik eller metahuristik för att lösa problemet.

Detta examensarbete undersöker möjligheten att använda maskininlärning som ett alternativt sätt att hitta resursförsörjningslösningar för exekvering av vetenskapliga arbetsflöden i molnet. För att undersöka detta utvärderas om en tränad maskininlärningsmodell kan förutsäga resursförmedlingslösningar med lösningskvalitet nära den för en state-of-the-art algoritm (PACSA) fast med en betydligt kortare beräkningstid. Maskininlärningsmodellerna tränas för de vetenskapliga arbetsflödena Cybershake och Montage med hjälp av arbetsflödesegenskaper som features och lösningsinstanser givna av PACSA-algoritmen som labels. De förutspådda instanserna är schemalagda med en oberoende HEFT-schemaläggare för att få en makespan.

Av projektet dras slutsatsen att det går att träna en maskininlärningsmodell så att den uppnår lösningskvalitet nära vad PACSA-algoritmen rapporterar fast med en betydligt kortare beräkningstid och att de bästa modellerna utvärderade i examensarbetet var en Decision Tree Regressionsmodell och en Support Vector Regressionsmodell. Slutsatsen påvisas av det faktum att DTR och SVR i genomsnitt lyckas vara bara 4.97 % (Cybershake) och 2.43 % (Montage) långsammare än PACSA-algoritmen gällande makespan samtidigt som de bara inför i genomsnitt 0,64 % (Cybershake) och 0,82 % (Montage) budgetöverträdelser. För stora arbetsflöden (1000 uppgifter) visade modellerna en genomsnittlig exekveringstid på 0,0165 sekunder för Cybershake och 0,0205 sekunder för Montage jämfört med PACSA-algoritmens exekveringstid på 57,138 sekunder för Cybershake och 44,215 sekunder för Montage. Det har också visat sig att modellerna lyckas få en bättre makespan än PACSA-algoritmen för vissa problemfall och lyckas lösa vissa problemfall som PACSA-algoritmen inte lyckades lösa. Ett förvånande resultat var att ML-modellerna till och med överträffade PACSA i 11,5 % av fallen för Cybershake-arbetsflödet och 19,5% av fallen för Montage-arbetsflödet.

Place, publisher, year, edition, pages
2019. , p. 72
Series
TRITA-EECS-EX ; 2019:832
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-271204OAI: oai:DiVA.org:kth-271204DiVA, id: diva2:1415995
Subject / course
Computer Science
Educational program
Master of Science in Engineering - Computer Science and Technology
Examiners
Available from: 2020-03-20 Created: 2020-03-20 Last updated: 2020-03-20Bibliographically approved

Open Access in DiVA

fulltext(960 kB)7 downloads
File information
File name FULLTEXT01.pdfFile size 960 kBChecksum SHA-512
5edbf3c5a13f78f41b5fd5d5524871a15761b1777ef56f050cd858fdbf146f07df2cae44abdec21c0848a232fe9aaa1d4f3c265cc6293ede2c3029807f5e7d7f
Type fulltextMimetype application/pdf

By organisation
School of Electrical Engineering and Computer Science (EECS)
Computer and Information Sciences

Search outside of DiVA

GoogleGoogle Scholar
Total: 7 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 10 hits
3536373839404138 of 204
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf