kth.sePublications
Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Fast Classification of Obfuscated Malware with an Artificial Neural Network
KTH, School of Electrical Engineering and Computer Science (EECS), Computer Science.
KTH, School of Electrical Engineering and Computer Science (EECS), Computer Science.
2022 (English)Independent thesis Basic level (degree of Bachelor), 10 credits / 15 HE creditsStudent thesisAlternative title
Snabb Klassifiering av Dold Skadlig Programvara med ett Artificiellt Neuralt Nätverk (Swedish)
Abstract [en]

Malware has posed a problem ever since the first variant was created in the 1980s. As malware detection techniques have advanced, malware developers have in turn found better ways to hide and obfuscate malware. Machine learning (ML) has seen great expansion into many fields over the last years, this includes the field of cybersecurity. Using ML techniques to identify malware is common today. The benefits include the possibility to identify malware even though obfuscated or even previously unknown. Several studies have shown detection rates in the 99% range. However, detection speed is also a priority, as anti-malware systems must be able to quickly identify threats. In this paper, a comparison of the accuracy and the runtimes of two ML methods is conducted. Specifically, a Multi-Layer Perceptron (MLP), which is a deep learner, and an Ensemble Learner composed of traditional ML methods are compared. The data evaluated is a recently published data set of features extracted from volatile memory in systems infected by malware utilizing obfuscation techniques. The findings show that in binary malware classification the MLP can reduce classification times by 94.3% compared to the ensemble learner with only a 0.02 percentage point penalty to accuracy. In multiclass classification, the classification times can be reduced by 99.8% with an accuracy penalty of 3.2 percentage points. Due to the significant time consumption gains, the results suggest that the MLP poses a good choice for this task in a real-world scenario.

Abstract [sv]

Skadlig programvara har utgjort ett problem ända sedan 80-talet då de första varianterna skapades. Över tid har tekniker för att upptäcka skadlig mjukvara utvecklats, men också tekniker för att dölja dem. Maskininlärning (ML) har letat sig in i många områden under de senaste åren och inom cybersäkerhet är användningen av ML för att identifiera skadlig programvara idag vanlig. Fördelarna är bland annat att skadlig programvara som använder förvirringstekniker eller är helt okänd sedan tidigare kan identifieras och flera studier har rapporterat en precision runt 99% i sådana experiment. Förutom träffsäkerheten vid klassificering är även hastigheten viktig för att snabbt kunna identifiera hot. I denna rapport görs en jämförelse av hastighet och träffsäkerhet hos två ML-modeller. Mer specifikt jämförs en Multi-Layer Perceptron (MLP) som applicerar djupinlärningstekniker med en Ensemble Learner som består av en sammansättning av flera traditionella ML-metoder. Datasetet som modellerna tränas och testas på är ett nyligen publicerat dataset med värden ur arbetsminnet från icke infekterade och infekterade system. Resultatet visar att i binär klassificering kan MLP-modellen reducera klassificeringstiden med 94.3% procent medan noggrannheten endast reduceras med 0.02 procentenheter jämfört med en Ensemble Learner. I flerklass-klassificering visas att MLP-modellen kan reducera klassificeringstiden med 99.8% med en noggrannhetsförlust på 3.2 procentenheter. Eftersom kraftiga reduktioner i tidsåtgång kan uppnås med endast minimal reduktion av noggrannheten tyder resultatet på att en MLP-modell utgör ett gott alternativ i en verklighetstillämpning för denna typ av uppgift.

Place, publisher, year, edition, pages
2022. , p. 30
Series
TRITA-EECS-EX ; 2022:441
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-320198OAI: oai:DiVA.org:kth-320198DiVA, id: diva2:1703918
Subject / course
Computer Science
Educational program
Master of Science in Engineering - Computer Science and Technology
Supervisors
Examiners
Available from: 2022-10-17 Created: 2022-10-15 Last updated: 2022-10-17Bibliographically approved

Open Access in DiVA

fulltext(410 kB)719 downloads
File information
File name FULLTEXT01.pdfFile size 410 kBChecksum SHA-512
0d3255522be265ce774635b9b4a53deecaa67da06b39e073cbfaee72e57a89d42284ba17b216990a7598d6ed87386430e2acccd43854a93c8a9f27db6991a917
Type fulltextMimetype application/pdf

By organisation
Computer Science
Computer and Information Sciences

Search outside of DiVA

GoogleGoogle Scholar
Total: 722 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 661 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf