Malware Class Recognition Image-Makandar-ReviewPaper


Paper Title: Malware Class Recognition using Image Processing Techniques

Authors: Aziz Makandar, Anita Patriot

Venue: International Conference on Data Management, Analytics and Innovation 2017

URL : https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8073489

Problem: Penulis malware mengembangkan berbagai teknik untuk mengelabui deteksi malware, misalnya mengubah process pada source code, mutasi instruksi malware dan lain-lain. Perlu pendekatan baru untuk melakukan klasifikasi varian malware.

Contribution:

Mengajukan teknik baru dengan image processing untuk klasifikasi varian malware 

Method/solution

  1. Menggunakan SVM multiclass
  2. Multi-resolution dan wavelett digunakan untuk membangun vektor texture feature menggunakan Gabor Wavelett, GIST dan Discrete Wavelete Transform
  3. Pengujian dilakukan pada Malimg Dataset dengan total 9339 sampel dari 25 family berbeda
  4. Pengujian dilakukan juga pada dataset Malheur Vision Labs yang terdiri dari 3131 sampel malware, dari 24 malware family
  5. 1610 sampel pada training dan 1710 sampel dari 8 malware family pada pengujian 
  6. 8 bit Binary malware  diubah menjadi 1 pixel grayscale
  7. Melakukan normalisasi image dan menjalankan filter pre-processing
  8. Malware dibagi kedalam variant family. Root folder dibuat dengan N number subfolder berdasarkan familynya
  9. Traning malware dilakukan dengan mengambil 25 sampel secara random dari setiap family
  10. Traiing menggunakan seluruh dataset.
  11. Klasifikasi menggunakan KNN, SVM
  12. Langkah yang dilakukan: a) menyiapkan dataset; b) pre-processing data; c) ekstrak feature dengan transformasi wavelett; d) Seleksi feature dengan PCA; e) training; f) klasifikasi data pengujian
  13. Pre-processing dilakukan dengan normalisasi sampel malware 64×64 dan mengguanakn filter
  14. Transformasi discrete wavelet dengan 3 tingkat decomposisi gambar menjadi 64×64 menggunakan db4 wavelet family, koefisien energi efektif diekstrak dari gambar dan disimpan dalam feature vektor
  15. 4 arah koefisien energi diekstrak, kemudian dihitung rata-rata dari feature vector
  16. Feature vector ditraining dan diuji untuk klasifikasi
  17. Menggunakan DWT level 3 dekomposisi dengan db4 wavelet family
  18. Koefisien energy diekstrak ke 56 feature vector yang didapatkan dari sampel malware pada dataset

Main result

  1. Akurasi SVM multiple class adalah 98,88% untuk dataset Malimg
  2. Akurasi pada k-nn dengan k=3 dengan euclidiean distance metric adalah 98,84%
  3. Pada City block didapatkan akurasi 98,78%
  4. Dengan Cosine didapatkan akurasi 97,87% dan Correlation 98,29%

Limitation:

  1. Hanya membahas malware Windows
  2. Spesifikasi mesin tidak disebutkan

Note:

  1. 4 major visualization technique: Malware Tree Map, Malware Thread Graph, Malware Image and VERA [4]
  2. 2 category: system call and image based approach
  3. Feature Characteristic extracted by hidden markov models dan simple substitution distance dengan SVM
  4. GIST digunakan untuk iris identification dan handwritten OCR [19]
  5. Malheur di label dari 6 AV berbeda
  6. Nataraj menggunakan GIST feature 320

Silahkan tuliskan tanggapan, kritik maupun saran