Paper Title: Multiclass malware classification via first- and second-order texture statistics
Authors: Vinita Verma, Sunil K.Muttoo, V.B.Singh
Venue: Journal Computers & security Elsevier vol 97, oct 2020, 101895
URL: https://doi.org/10.1016/j.cose.2020.101895
Problem: Klasifikasi malware saat ini tidak efisien, terutama menghadapi imbalanced class. Perlu pendekatan baru
Contribution:
- Mengajukan sistem klasifikasi dengan analisa tekstur binary pada grayscale dengan kombinasi first-order dan grey-level co-occurrence matrix (GLCM) based second-order statistical textyre feature dari representasi visual malware
Method/solution
- Menggunakan esemble learning
- Pengujian menggunakan dataset Malimg
- Kode biner malware dibaca menjadi 8 bit integer disusun menjadi matrix dan diubah menjadi greyscale
- Lebar gambar fixed dan tingginya berbeda tergantung ukuran file
- Analisa texture biner menggunakan histogram equalization untuk mendapatkan distribusi level grey yang seragam, kemudian diubah menjadi 64×64 pixel
- Dilakukan penghitungan statistik first-order dan pembuatan GLCM dari gambar untuk menurunkan second-order texture statistik
- Feature statistik yang digunakan untuk mendapatkan teksture first-order adalah: mean, median, standar deviation, skewness, kurtosis, minimum, 10th percentile, maximum, 90th percentile, interquartile range (IQR), Mean Absolute Deviation (MAD), first-order entropy, first-order energy, coefficient of variation (CV), Range, Quartile coefficient of Dispersion (QCD), Variance, Median Absolute Deviation (MedAD) dan Root Mean Square (RMS)
- Feature texture menggunakan GLCM (Grey level spatial dependence matrix)
- GLCM dihitung dengan 3 parameter (jumlah grey level L dari gambar, distance d dan angular relationship θ antara grey level
- GLCM adalah matrix LxL G(i,j)
- Binary ditransformasi menjadi greyscale direduksi menjadi 32 level . Kemudian 4 matrix GLC< 32×32 pixel dihitung dengan θ= 0 °, 45 °, 90 °, and 135 °and d = 1
- Feature GLCM second order diturunkan dengan menghitung parameter berikut: contrast, Angular second moment (ASM), normalized Inverse Difference Moment (normalized IDM), joint average, sum of squares atau joint variance, joint entropy, joint maximum dan correlation
- Dataset 1vmenggunakan Malimg; terdiri dari 9339 sampel malware dari 25 family dengan 80-2949 sampel per family
- Label disediakan oleh Microsoft Security essentials
- Family malware dibagi menjadi kategori: worm, PWS, Dialer, Rogue, Backdoor, Trojan, dan TDownloader
- Parameter yang dihiting adalah precision, recall dan F1 Measure
- Dataset terdiri dari sampel malware yang unpacked dan packed
- Dataset 2 menggunakan sampel dari 2916 sampel windows virusshare, yang terdiri dari 19 family
- Melakukan ekstraksi 35 feature pada dataset 2
Main result
- Menghasilkan F1 score dan akurasi lebih tinggi dibandingkan sistem state-of-the art
- Menghasilkan efisiensi dan reliability yang lebih baik
- Robust terhadap serangan obfuscation (packing, code relocation dan encryption)
- Menggunakan ekstraksi feature lebih sedikit,
- Tidak memerlukan disassembly maupun code execution, sehingga waktu klasifikasi lebih cepat6%
- Precission 98,04%, recall 98,0 dan F1 98,05%
- Hasil klasifikasi pada dataset 2, presisi 97,44%, recall 98,12 dan F1 measure 97,75%
- Waktu yang dibutuhkan untuk merubah binary malware menjadi image adalah 37 mili detik
- Rata-rata waktu klasifikasi adalah 0,01 detik
Limitation:
- Terdapat kesalahan klasifikasi pada ransomware
- Rentan terhadap serangan evasion dengan embed malware pada binary benign dengan ukuran besar.
- Tidak efektif untuk mendeteksi malware baru