Paper Title: Malware Class Recognition using Image Processing Techniques
Authors: Aziz Makandar, Anita Patriot
Venue: International Conference on Data Management, Analytics and Innovation 2017
URL : https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8073489
Problem: Penulis malware mengembangkan berbagai teknik untuk mengelabui deteksi malware, misalnya mengubah process pada source code, mutasi instruksi malware dan lain-lain. Perlu pendekatan baru untuk melakukan klasifikasi varian malware.
Contribution:
Mengajukan teknik baru dengan image processing untuk klasifikasi varian malware
Method/solution
- Menggunakan SVM multiclass
- Multi-resolution dan wavelett digunakan untuk membangun vektor texture feature menggunakan Gabor Wavelett, GIST dan Discrete Wavelete Transform
- Pengujian dilakukan pada Malimg Dataset dengan total 9339 sampel dari 25 family berbeda
- Pengujian dilakukan juga pada dataset Malheur Vision Labs yang terdiri dari 3131 sampel malware, dari 24 malware family
- 1610 sampel pada training dan 1710 sampel dari 8 malware family pada pengujian
- 8 bit Binary malware diubah menjadi 1 pixel grayscale
- Melakukan normalisasi image dan menjalankan filter pre-processing
- Malware dibagi kedalam variant family. Root folder dibuat dengan N number subfolder berdasarkan familynya
- Traning malware dilakukan dengan mengambil 25 sampel secara random dari setiap family
- Traiing menggunakan seluruh dataset.
- Klasifikasi menggunakan KNN, SVM
- Langkah yang dilakukan: a) menyiapkan dataset; b) pre-processing data; c) ekstrak feature dengan transformasi wavelett; d) Seleksi feature dengan PCA; e) training; f) klasifikasi data pengujian
- Pre-processing dilakukan dengan normalisasi sampel malware 64×64 dan mengguanakn filter
- Transformasi discrete wavelet dengan 3 tingkat decomposisi gambar menjadi 64×64 menggunakan db4 wavelet family, koefisien energi efektif diekstrak dari gambar dan disimpan dalam feature vektor
- 4 arah koefisien energi diekstrak, kemudian dihitung rata-rata dari feature vector
- Feature vector ditraining dan diuji untuk klasifikasi
- Menggunakan DWT level 3 dekomposisi dengan db4 wavelet family
- Koefisien energy diekstrak ke 56 feature vector yang didapatkan dari sampel malware pada dataset
Main result
- Akurasi SVM multiple class adalah 98,88% untuk dataset Malimg
- Akurasi pada k-nn dengan k=3 dengan euclidiean distance metric adalah 98,84%
- Pada City block didapatkan akurasi 98,78%
- Dengan Cosine didapatkan akurasi 97,87% dan Correlation 98,29%
Limitation:
- Hanya membahas malware Windows
- Spesifikasi mesin tidak disebutkan
Note:
- 4 major visualization technique: Malware Tree Map, Malware Thread Graph, Malware Image and VERA [4]
- 2 category: system call and image based approach
- Feature Characteristic extracted by hidden markov models dan simple substitution distance dengan SVM
- GIST digunakan untuk iris identification dan handwritten OCR [19]
- Malheur di label dari 6 AV berbeda
- Nataraj menggunakan GIST feature 320