Review paper-Deteksi malware dengan teknik Data mining


Paper Title: A Survey on Malware Detection Using Data Mining Techniques

Authors: YANFANG YE, TAO Li, Donald Adjeroh, Iyengar

Venue: ACM CSUR 2017

URL: https://dl.acm.org/doi/abs/10.1145/3073559

Problem: Paper ini melakukan survey tentang teknologi deteksi malware secara intelligent. Proses analisa malware biasanya dilakukan secara manual oleh analis malware. Namun proses analisa ini memerlukan waktu dan keahlian khusus. Semakin banyaknya jumlah malware maka dibutuhkan proses analisa malware secara intelligent.

Contribution:

1. Memberikan pemaparan tentang state-of-the art berbagai teknologi malware dan anti malware

2. Melakukan investigasi teknik deteksi malware secara intelligent (otomatis) 

3. Memberikan penjelasan tahapan deteksi malware otomatis yaitu feature extraction dan classification (clustering)

Method/solution:

Melakukan studi komparasi penelitian tentang deteksi malware secara intelligent. 

Perkembangan teknik deteksi malware tradisional:

1. Signature based: Malware dianalisa secara manual oleh analis, kemudian di buat signature malware. Signature dimasukan ke database antivirus. Antivirus menggunakan signature untuk mendeteksi malware

Kelemahan teknik ini tidak bisa mendeteksi malware yang menggunakan teknik obfuscation (pengelabuan)

2. Heuristic based: menggunakan rules/ pattern yang dapat membedakan malware dan non malware (benign). Kelebihan dapat mendeteksi malware yang menggunakan teknik obfuscation dan malware baru. Kelemahan: memiliki tingkat false positive tinggi.

3. Cloud based: Proses analisa dilakukan di server cloud.

Main result:

Proses analisa malware secara otomatis menggunakan 2 tahapan:

1. Feature extraction:  Feature yang membedakan malware diekstrak secara statik maupun dinamik

2. Classification/clustering: Klasifikasi file yang belum dikenal menjadi malware atau benign. Clustering adalah pengelompokan sampel yang memiliki kemiripan menjadi beberapa grup.

Feature Extraction dilakukan menggunakan metode berikut:

a. Analisa Statik: beberapa feature yg didapatkan melalui metode ini adalah: Windows API calls, N Grams, Strings, Opcode, Control Flow Graphs (CFG)

b. Analisa dinamik: beberapa macan metode analisa dinamik adalah: debugger, simulator, emulator, Virtual Machine

c. Analisa Hybrid: gabungan statik dan dinamik

d. Semantik

Beberapa teknik Klasifikasi malware menggunakan algoritma berikut:

a. Decission Tree : Random Forest

b. Naive Bayes Classifier

c. K-NN

d. ANN

e. SVM

f. Associative Classifier

g. Deep Learning

Limitation:

1. Dari hasil survey disimpulkan bahwa belum ada satu algoritma klasifikasi malware yang terbaik (mampu mendeteksi semua malware)

2. Performansi deteksi bergantung pada feature yang diekstraksi

3. Proses training data membutuhkan dataset yang besar

4. Ada masalah imbalanced dataset

reference: Yanfang Ye, Tao Li, Donald Adjeroh, and S. Sitharama Iyengar. 2017. A Survey on Malware Detection Using Data Mining Techniques. ACM Comput. Surv. 50, 3, Article 41 (October 2017), 40 pages. DOI:https://doi.org/10.1145/3073559


Silahkan tuliskan tanggapan, kritik maupun saran