Image-based malware Classification- Vasan- Paper review


Paper Title: IMFCN: Image-based malware classification using fine-tuned convolutional neural network architecture

Authors: Danish Vasan, Mamoun Alazab, Sobia Wassan, Hamad Naeem, Babak Safaei, Qin Zheng:

Venue: Journal Computer Networks, Vol 171, 22 April 2020, 107-138

URL: https://www.sciencedirect.com/science/article/pii/S1389128619304736 ; https://doi.org/10.1016/j.comnet.2020.107138

Problem: Volume, tipe dan kompleksitas malware terus meningkat. Pendekatan deteksi malware. Teknik deteksi konvensional tidak mampu mendeteksi variant malware. Teknik deteksi malware dengan image representation membutuhkan komputasi yang besar. Permasalahan data imbalance pada dataset.

Contribution: 1. Mengembangkan metode baru deteksi dan klasifikasi umalware dengan hybrid deep learning (IMCFN) yang menggabungkan teknik visualisasi dan arsitektur CNNyang efisien, scalable dengan overhead run-time rendah

2. Model tidak membutuhkan feature engineering maupun domain expert knowledge seperti reverse engineering, binary disassembly, dan bahasa asembler. Performanse model lebih baik dari pendekatan ekstraksi feature

3. Implementasi skema fine-tuninge untuk fingerprint malware image dengan metode back-propagation. Teknik Augmentasi datai digunakan untuk optimasi performa algoritma IMCFN dan menangani imbalance dataset. Layer yang menggunakan FC2, FC1 dan block5 membutuhkan komputasi yang lebih kecil, dan lebih cepat dalam melakukan klasifikasi malware.

4. Implementasi normalisasi image malware, untuk identifikasi obfuskasi dan packed pada normalized program

5. Melakukan analisa mendalam menggunakan berbagai teknik ML klasik dan aristektur deep learning pada dataset besar untuk evaluasi arsitektur usulan dalam penanganan varian malware baru.

6. Menguji model terhadap obfuscated malware, menggunakan 25 family malware dari dataset Malimg, untuk melakukan prediksi ketangguhan serangan obfuscated malware.

Method/solution: 

  1. Sistem terdiri dari 2 bagian: a. Malware image generation dan b. CNN fine-tuning dengan teknik backpropagation. Pada saat fine-tuning digunakan teknik data augmentasi untuk meningkatka performa IMFCN
  2. Representasi Image dari malware: input binary dirubah menjadi vektor 8 bit, kemudian ditransformasi jadi array 2D dan divisualisasikan menggunakan color-map.
  3. Menggunakan teknik texture-based malware classification untuk mendeteksi teknik obfuscation.
  4. Dataset menggunakan Malimg, dan IoT android mobile
  5. Untuk menangani masalah imbalance dataset digunakan teknik data augmentation.
  6. Tools menggunakan python pada mesin NVIDIA Ti-1080 12GB GPU untuk training dan Intel Core i7-4790 processor dengan 8GB memori untuk classification
  7. Algoritma klasifikasi malwar emenggunakan GIST+KNN, LBP+KNN, GLCM+KNN dan DSIFT+GIST+KNN
  8. Performa classifier diukur dengan paramater akurasi, f1-score, recall atau TPR (True Positive rate), precission dan FPR (false positive rate)
     

Main result:

1.Efek augmentasi: F1 score IMFCN 98,75% sementara utk non-augmentasi 97,81%

2. Hasil perbandingan IMFCN dengan 4 metode klasifikasi malware dengan image represetation, IMFCN memiliki F1 Score tertinggi yaitu 98,75%,  sementara GIST 87,94% , LBP 96,12%, GLCM 95,76% dan DSIFT+GIST 93,12%

3. Perbandingan dengan metode VGG16, ResNet50 dan Inceptionv3. Akurasi IMCFN adalah 98,82%, Resnet50 98,61%, InceptionV3 98,65%, VGG16 97,12%

4. Perbandingan waktu yang dibutuhkan untuk klasifikasi: VGG16 0,97 detik, 0,63 detik untuk Resnet50, 0,68 detik untuk InceptionV3 dan 0,81 detik untuk IMFCN. 

5. Rata2 hasil presisi, recall dan akurasi IMFCN lebih baik daripada teknik klasifikasi malware dengan representasi image lainnya seperti softmax, KNN dan SVM)

6. Sementara untuk dataset IoT-android mobil diperoleh akurasi 97,35% sementara untuk algoritma pembanding 96,69%

Limitation:

  1. Dataset image yang digunakan hanya dari malimg, perlu dilakukan pengujian dengan dataset microsoft classification challenge
  2. Jenis malware yang diuji terbatas hanya 25 family
  3. Metode konversi binary ke gambar berwarna belum dijelaskan secara komprehensif
,

Silahkan tuliskan tanggapan, kritik maupun saran