Malware Classification Markov-Xia-ReviewPaper


Paper TitleMalware Classification with Markov Transition Field Encoded Images

Authors : Shiming Xia, Zhisong Pan, Zhe Chen, Wei Bai, Haimin Yang

Venue: 2018 Eight International Conference on Instrumentation and Measurement, Computer, Communication and Control

URL: https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9045036&tag=1

Problem: Jumlah malware meningkat secara eksponensial. Diperlukan pendekatan baru untuk melakukan klasifikasi malware dan benign 

Contribution:

Mengajukan sistem klasifikasi malware dengan image representasi dan signal-based menggunakan Markov Transition Field (MTF)

Method/solution

  1. Mengubah Malware menjadi signal
  2. Mengesktrak feature vector menjadi signal
  3. Menggunakan SVM untuk melatih model untuk deteksi malware
  4. Menggunakan Markov Transition Field (MTF) untuk mengolah signal malware. menghitung state transfer probability
  5. Menggunakan deep learning dengan SVM
  6. Konversi malware menjadi grayscale, menggunakan aturan lebar gambar berdasarkan ukuran file <10kb=32; 10-30kb=64; 30-60kb=128; 60-100kb=256; 100-200kb=384; 200-500kb=512; 500-1MB=768; >1MB=1024 [Nataraj]
  7. Konvert raw malware menjadi 1 dimensi vector
  8. Panjang vector dibatasi dengan fixed-length
  9. Vector ditrain dengan two-class classifier dengan SVM
  10. Model digunakan untuk memprediksi malware baru
  11. File malware diconvert menjadi byte-signal X
  12. Menentukan Q quantile bins dan menentukan setiap byte dari signal xi ke bins  qj(j[1,Q])
  13. Kemdian membuat matriks W dengan weight QxQ (dimana W adalah matriks transisi markov)
  14. Wij adalah frequency dari sebuah titik pada quantile Qi yang diikuti sebuah titik pada quantile Qj
  15. Setelah normalisasi dengan Sigma j wi, j=1 didapatkan matriks transisi markovW
  16. Setiap file dikonversi menjadi image MTF dengan ukuran fixed size
  17. Untuk gambar yang decoded, menggunakan model Resnet50 DCNN untuk training
  18. Untuk gambar vector menggunakan SVM untuk klasifikasi
  19. Dataset terdiri dari 1000 malware dari virusshare, 1000 apk dari oppo mobile phone software download center sebagai benign
  20. Menggunakan 3-fold cross validation
  21. Partisi sampel secara random menjadi 3 sets equal, dengan proporsi yang sama pada label class pada setiap fold, 1 sebagai testing set dan 2 sebagai training set
  22. Byteplot+TDCNN adalah metode pertama, kemudian Resnet-5- TDCNN sebagai learning model dan Signal+TDCNN yang mengubah tinggi dan lebar dari gambar
  23. Ukuran image diubah menjadi 100×100 dan Resnet TDCNN sebagai learning model
  24. Signal+SVM sebagai metode yang mengubah image menjadi byteplot menjadi signal, kemudian SVM sebagai learning model
  25. MTF+TDCNN untuk mengubah image MTF, kemudian resnet50 TDCNN sebagai learning model
  26. MTF+SVM untuk mengubah image MTF menjadi vector 1 dimensi kemudian SVM sebagai learning model
  27. Menjalankan setiap metode 10 kali dengan 3-fold cross-validation dataset
  28. Menghitung rata-rata dan varian dari setiap 10 hasil

Main result

  1. Dari pengujian Signal+TDCNN menghasilkan performa lebih baik dibandignkan byteplot+TDCNN
  2. Signal+SVM lebih baik daripada Signal+TDCNN
  3. MTF+SVM lebih baik dibandingkan MTF+TDCNN
  4. Deep Learning tidak selalu menghasilkan performa lebih baik
  5. Metode terbaik pada pengujian ini adalah MTF_SVM

Limitation:

  1. Masih terjadi Overfitting
  2. Jumlah sampel terbatas

note:

Visualisasi malware sebagai image; Conti[8] byteplot grayscale image; Nataraj wavelet, Mukkamala-intensity and texture feature from grayscale

Deep Learning; Rezende Deep CNN berbasis ResNet-50 pada dataset ImageNet, menggunakan 1000 kelas klasifikasi, dan mengganti layer 1000 fully-connected softmax dengan 25 (kelas) fully-connected softmax layer

SVM menghasilkan performa baik untuk two-classification problem, small sampel dan text categorization

 


Silahkan tuliskan tanggapan, kritik maupun saran