Image Based Deep Learning Deteksi malware – Venkatraman – review Paper


Paper Title: A hybrid deep learning image-based analysis for effective malware detection

Authors: Sitalakshmi Venkatraman, Mamoun Alazab, R.Vinayakumar

VenueJournal of Information Security and Applications 47 (2019) 377–389; Elsevier

URL: https://doi.org/10.1016/j.jisa.2019.06.006

Problem: Dengan meningkatnya jumlah malware, perlu ada metode deteksi malware baru.

Contribution:

1. Metode deteksi malware menggunakan image based 

2. Menggunakan teknik hybrid image based dengan arsitektur deep learning untuk klasifikasi malware

Method/solution: Arsitektur deteksi malware yang dibangun terdiri dari 3 subsistem, satu subsistem menggunakan model unsupervised learning, dua subsistem menggunakan model supervised learning. Menggunakan tahapan pre-processing untuk proses konversi file binary menjadi bentuk representasi feature yang bisa digunakan untuk input model machine learning dan deep learning. Sistem ini bisa digunakan secara real time. Model ini menggunakan model machine learning klasik dan image based.

Arsitektur Deep learning menggunakan CNN dan bi-directional pipeline. Perhitungan cost matrix menggunakan LSTM. CNN menggunakan 3 layer berbeda, convolutional, poolong dan fully connected. Feature dipetakan menggunakan ReLU (Rectified Linear Units). Pada klasifikasi, digunakan sigmoid untuk binary dan softmax untuk klasifikasi multi class

Teknik image based menggunakan visual image dari binary atau log behaviour dari sampel malware.  Analisa image melakukan similarity mining dari behaviour pattern malware.

Dataset yang digunakan 52 ribu sampel malware, Pada tahapan preprocessing sampel yang menggunakan teknik packing dipisahkan dengan yang tidak menggunakan packing, menggunakan tools packer detektor. Feature yang diekstrak diantaranya API function call, binary n-gram. Model supervised pertama menggunakan classifier SVM. Dilakukan perhitungan similarity matrix.

Untuk analisa image feature diekstrak dengan model CNN, kemudian dilakukan clustering menggunakan algoritma K-means. Benchmark menggunakan dataset microsoft malware classification challeng dan Malimg.

Tools yang digunakan Tensorflow, KEras pada GPU NVidia GK110BGL Tesla k40

Main result:

1. 77% sampel menggunakan teknik packing.

2. Obfuscated malware atau variant dari family malware yang sama memiliki kemiripan pada pola image.

3. Tidak ada kesamaan antara file benign yang berbeda 

4. Model yang menggunakan CNN dan RNN menghasilkan performance terbaik

5. Akurasi yang didapat 98,6 pada model SVM

6. Model classifier yang dibangun lebih efektif dari sisi komputasi daripada model maschine learning klasik

Limitation:

  1. tidak mencoba teknik robust hashing dan transfer learning untuk klasifikasi image based
  2. Jumlah dataset relatif sedikit (<1 juta)
  3. Tidak dilakukan optimasi nilai parameter pada arsitektur deep learning
,

Silahkan tuliskan tanggapan, kritik maupun saran