Multiclass malware classification via texture statistics-Verma


Paper Title: Multiclass malware classification via first- and second-order texture statistics

Authors: Vinita Verma, Sunil K.Muttoo, V.B.Singh

Venue: Journal Computers & security Elsevier vol 97, oct 2020, 101895

URL: https://doi.org/10.1016/j.cose.2020.101895

Problem: Klasifikasi malware saat ini tidak efisien, terutama menghadapi imbalanced class. Perlu pendekatan baru

Contribution:

  1. Mengajukan sistem klasifikasi dengan analisa tekstur binary pada grayscale dengan kombinasi first-order dan grey-level co-occurrence matrix (GLCM) based second-order statistical textyre feature dari representasi visual malware

 

Method/solution

  1. Menggunakan esemble learning
  2. Pengujian menggunakan dataset Malimg
  3. Kode biner malware dibaca menjadi 8 bit integer disusun menjadi matrix dan diubah menjadi greyscale
  4. Lebar gambar fixed dan tingginya berbeda tergantung ukuran file
  5. Analisa texture biner menggunakan histogram equalization untuk mendapatkan distribusi level grey yang seragam, kemudian diubah menjadi 64×64 pixel
  6. Dilakukan penghitungan statistik first-order dan pembuatan GLCM dari gambar untuk menurunkan second-order texture statistik
  7. Feature statistik yang digunakan untuk mendapatkan teksture first-order adalah: mean, median, standar deviation, skewness, kurtosis, minimum, 10th percentile, maximum, 90th percentile, interquartile range (IQR), Mean Absolute Deviation (MAD), first-order entropy, first-order energy, coefficient of variation (CV), Range, Quartile coefficient of Dispersion (QCD), Variance, Median Absolute Deviation (MedAD) dan Root Mean Square (RMS)
  8. Feature texture menggunakan GLCM (Grey level spatial dependence matrix)
  9. GLCM dihitung dengan 3 parameter (jumlah grey level L dari gambar, distance d dan angular relationship θ antara grey level
  10. GLCM adalah matrix LxL G(i,j)
  11. Binary ditransformasi menjadi greyscale direduksi menjadi 32 level . Kemudian 4 matrix GLC< 32×32 pixel dihitung dengan θ= 0 °, 45 °, 90 °, and 135 °and d = 1
  12. Feature GLCM second order diturunkan dengan menghitung parameter berikut: contrast, Angular second moment (ASM), normalized Inverse Difference Moment (normalized IDM), joint average, sum of squares atau joint variance, joint entropy, joint maximum dan correlation
  13. Dataset 1vmenggunakan Malimg; terdiri dari 9339 sampel malware dari 25 family dengan 80-2949 sampel per family
  14. Label disediakan oleh Microsoft Security essentials
  15. Family malware dibagi menjadi kategori: worm, PWS, Dialer, Rogue, Backdoor, Trojan, dan TDownloader
  16. Parameter yang dihiting adalah precision, recall dan F1 Measure
  17. Dataset terdiri dari sampel malware yang unpacked dan packed
  18. Dataset 2 menggunakan sampel dari 2916 sampel windows virusshare, yang terdiri dari 19 family
  19. Melakukan ekstraksi 35 feature pada dataset 2

Main result

  1. Menghasilkan F1 score dan akurasi lebih tinggi dibandingkan sistem state-of-the art
  2. Menghasilkan efisiensi dan reliability yang lebih baik
  3. Robust terhadap serangan obfuscation (packing, code relocation dan encryption)
  4. Menggunakan ekstraksi feature lebih sedikit,
  5. Tidak memerlukan disassembly maupun code execution, sehingga waktu klasifikasi lebih cepat6%
  6. Precission 98,04%, recall 98,0 dan F1 98,05%
  7. Hasil klasifikasi pada dataset 2, presisi 97,44%, recall 98,12 dan F1 measure 97,75%
  8. Waktu yang dibutuhkan untuk merubah binary malware menjadi image adalah 37 mili detik
  9. Rata-rata waktu klasifikasi adalah 0,01 detik

Limitation:

  1. Terdapat kesalahan klasifikasi pada ransomware
  2. Rentan terhadap serangan evasion dengan embed malware pada binary benign dengan ukuran besar.
  3. Tidak efektif untuk mendeteksi malware baru

Silahkan tuliskan tanggapan, kritik maupun saran