Fast Classification of Obfuscated Malware with an Artificial Neural Network
2022 (English)Independent thesis Basic level (degree of Bachelor), 10 credits / 15 HE credits
Student thesisAlternative title
Snabb Klassifiering av Dold Skadlig Programvara med ett Artificiellt Neuralt Nätverk (Swedish)
Abstract [en]
Malware has posed a problem ever since the first variant was created in the 1980s. As malware detection techniques have advanced, malware developers have in turn found better ways to hide and obfuscate malware. Machine learning (ML) has seen great expansion into many fields over the last years, this includes the field of cybersecurity. Using ML techniques to identify malware is common today. The benefits include the possibility to identify malware even though obfuscated or even previously unknown. Several studies have shown detection rates in the 99% range. However, detection speed is also a priority, as anti-malware systems must be able to quickly identify threats. In this paper, a comparison of the accuracy and the runtimes of two ML methods is conducted. Specifically, a Multi-Layer Perceptron (MLP), which is a deep learner, and an Ensemble Learner composed of traditional ML methods are compared. The data evaluated is a recently published data set of features extracted from volatile memory in systems infected by malware utilizing obfuscation techniques. The findings show that in binary malware classification the MLP can reduce classification times by 94.3% compared to the ensemble learner with only a 0.02 percentage point penalty to accuracy. In multiclass classification, the classification times can be reduced by 99.8% with an accuracy penalty of 3.2 percentage points. Due to the significant time consumption gains, the results suggest that the MLP poses a good choice for this task in a real-world scenario.
Abstract [sv]
Skadlig programvara har utgjort ett problem ända sedan 80-talet då de första varianterna skapades. Över tid har tekniker för att upptäcka skadlig mjukvara utvecklats, men också tekniker för att dölja dem. Maskininlärning (ML) har letat sig in i många områden under de senaste åren och inom cybersäkerhet är användningen av ML för att identifiera skadlig programvara idag vanlig. Fördelarna är bland annat att skadlig programvara som använder förvirringstekniker eller är helt okänd sedan tidigare kan identifieras och flera studier har rapporterat en precision runt 99% i sådana experiment. Förutom träffsäkerheten vid klassificering är även hastigheten viktig för att snabbt kunna identifiera hot. I denna rapport görs en jämförelse av hastighet och träffsäkerhet hos två ML-modeller. Mer specifikt jämförs en Multi-Layer Perceptron (MLP) som applicerar djupinlärningstekniker med en Ensemble Learner som består av en sammansättning av flera traditionella ML-metoder. Datasetet som modellerna tränas och testas på är ett nyligen publicerat dataset med värden ur arbetsminnet från icke infekterade och infekterade system. Resultatet visar att i binär klassificering kan MLP-modellen reducera klassificeringstiden med 94.3% procent medan noggrannheten endast reduceras med 0.02 procentenheter jämfört med en Ensemble Learner. I flerklass-klassificering visas att MLP-modellen kan reducera klassificeringstiden med 99.8% med en noggrannhetsförlust på 3.2 procentenheter. Eftersom kraftiga reduktioner i tidsåtgång kan uppnås med endast minimal reduktion av noggrannheten tyder resultatet på att en MLP-modell utgör ett gott alternativ i en verklighetstillämpning för denna typ av uppgift.
Place, publisher, year, edition, pages
2022. , p. 30
Series
TRITA-EECS-EX ; 2022:441
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-320198OAI: oai:DiVA.org:kth-320198DiVA, id: diva2:1703918
Subject / course
Computer Science
Educational program
Master of Science in Engineering - Computer Science and Technology
Supervisors
Examiners
2022-10-172022-10-152022-10-17Bibliographically approved