kth.sePublikationer
Ändra sökning
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf
Hybrid Ensemble Methods: Interpretible Machine Learning for High Risk Aeras
KTH, Skolan för teknikvetenskap (SCI), Matematik (Inst.), Matematisk statistik.
2021 (Engelska)Självständigt arbete på avancerad nivå (masterexamen), 20 poäng / 30 hpStudentuppsats (Examensarbete)Alternativ titel
Hybrida ensemblemetoder: Tolkningsbar maskininlärning för högriskområden (Svenska)
Abstract [en]

Despite the access to enormous amounts of data, there is a holdback in the usage of machine learning in the Cyber Security field due to the lack of interpretability of ”Black­box” models and due to heterogenerous data. This project presents a method that provide insights in the decision making process in Cyber Security classification. Hybrid Ensemble Methods (HEMs), use several weak learners trained on single data features and combines the output of these in a neural network. In this thesis HEM preforms phishing website classification with high accuracy, along with interpretability. The ensemble of predictions boosts the accuracy with 8%, giving a final prediction accuracy of 93 %, which indicates that HEM are able to reconstruct correlations between the features after the interpredability stage. HEM provides information about which weak learners trained on specific information that are valuable for the classification. No samples were disregarded despite missing features. Cross validation were made across 3 random seeds and the results showed to be steady with a variance of 0.22%. An important finding was that the methods performance did not significantly change when disregarding the worst of the weak learners, meaning that adding models trained on bad data won’t sabotage the prediction. The findings of these investigations indicates that Hybrid Ensamble methods are robust and flexible. This thesis represents an attempt to construct a smarter way of making predictions, where the usage of several forms of information can be combined, in an artificially intelligent way.

Abstract [sv]

Trots tillgången till enorma mängder data finns det ett bakslag i användningen av maskininlärning inom cybersäkerhetsområdet på grund av bristen på tolkning av ”Blackbox”-modeller och på grund av heterogen data. Detta projekt presenterar en metod som ger insikt i beslutsprocessen i klassificering inom cyber säkerhet. Hybrid Ensemble Methods (HEMs), använder flera svaga maskininlärningsmodeller som är tränade på enstaka datafunktioner och kombinerar resultatet av dessa i ett neuralt nätverk. I denna rapport utför HEM klassificering av nätfiskewebbplatser med hög noggrannhet, men med vinsten av tolkningsbarhet. Sammansättandet av förutsägelser ökar noggrannheten med 8 %, vilket ger en slutgiltig prediktionsnoggrannhet på 93 %, vilket indikerar att HEM kan rekonstruera korrelationer mellan funktionerna efter tolkbarhetsstadiet. HEM ger information om vilka svaga maskininlärningsmodeller, som tränats på specifik information, som är värdefulla för klassificeringen. Inga datapunkter ignorerades trots saknade datapunkter. Korsvalidering gjordes över 3 slumpmässiga dragningar och resultaten visade sig vara stabila med en varians på 0.22 %. Ett viktigt resultat var att metodernas prestanda inte förändrades nämnvärt när man bortsåg från de sämsta av de svaga modellerna, vilket innebär att modeller tränade på dålig data inte kommer att sabotera förutsägelsen. Resultaten av dessa undersökningar indikerar att Hybrid Ensamble-metoder är robusta och flexibla. Detta projekt representerar ett försök att konstruera ett smartare sätt att göra klassifieringar, där användningen av flera former av information kan kombineras, på ett artificiellt intelligent sätt.

Ort, förlag, år, upplaga, sidor
2021. , s. 53
Serie
TRITA-SCI-GRU ; 2021:407
Nyckelord [en]
Interpretability, Machine Learning, Sparse Data, Ensemble, Cyber Security, High Risk Sectors
Nyckelord [sv]
Tolkbarhet, Maskininlärning, Gles Data, Ensemblemetoder, Cybersäkerhet, Högriskområden
Nationell ämneskategori
Annan matematik
Identifikatorer
URN: urn:nbn:se:kth:diva-342520OAI: oai:DiVA.org:kth-342520DiVA, id: diva2:1830369
Ämne / kurs
Matematisk statistik
Utbildningsprogram
Teknologie masterexamen - Tillämpad matematik och beräkningsmatematik
Handledare
Examinatorer
Tillgänglig från: 2024-03-07 Skapad: 2024-01-23 Senast uppdaterad: 2024-03-07Bibliografiskt granskad

Open Access i DiVA

fulltext(3827 kB)220 nedladdningar
Filinformation
Filnamn FULLTEXT01.pdfFilstorlek 3827 kBChecksumma SHA-512
55a675d1b24c25b49768610c9ef2dc8b144e395b72c85641874f753e273fbac8da3759b1bacc0857e3ebea45633dfb61ae2e57c4150d1052d2a4ff404efef12b
Typ fulltextMimetyp application/pdf

Av organisationen
Matematisk statistik
Annan matematik

Sök vidare utanför DiVA

GoogleGoogle Scholar
Totalt: 220 nedladdningar
Antalet nedladdningar är summan av nedladdningar för alla fulltexter. Det kan inkludera t.ex tidigare versioner som nu inte längre är tillgängliga.

urn-nbn

Altmetricpoäng

urn-nbn
Totalt: 245 träffar
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf