Klasifikasi Malware dengan recurrent network – Pascanu – review paper


Paper TitleMalware Classification with recurrent Networks

Authors: Razvan Pascanu, Jack Stokes, Hermineh Sanossian, Mady Marinescu, Anil Thomas

Venue: IEEE International Conference on Acoustic, Speech and Signal Processing 2015

URL10.1109/ICASSP.2015.7178304

Problem: Classifier malware mesin learning yang ada saat ini berbasis hand-crafted feature vector. Metode ini rentan terhadap teknik obfuscation dengan melakukan rewrite dan reorder kode malwarenya.

Contribution

  1. Mengajukan pendekatan baru yang mempelajari bahasa malware melalui instruksi yang dieksekusi dan melakukan ekstraksi fitur time domain.
  2. Metode ini robust terhadap teknik obfuscation yang melakukan rewrite dan reorder kode malware

Method/solution

  1. Untuk ekstraksi feature menggunakan Echo state network (ESN) dan Recurrent Neural
  2. Model di training secara unsupervised
  3. Classifier menggunakan feature ini untuk mendeteksi malicious
  4. Menggunakan max-pooling dan model half-frame
  5. Recurrent model ditrain untuk memprediksi API call berikutnya dan menggunakan hidden state dari model sebagai fiexed-length feature vector yang memberikan classifier terpisah (logistic regression atau MLP)
  6. Menggunakan arsitektur Leaky-units (dengan low-pass filter yang exponential decay) untuk meningkatkan long-term memory dari sistem
  7. Menggunakan model bi-directional yang melakukan kombinasi 2 model terpisah, satu model belajar dengan memproses event pada forward direction dan model kedua yang membangun sebuah model dengan memproses event pada reverse direction
  8.  Win adalah input dari hidden layer weight matrix, Wrec adalah recurrent weight matrix, , b adalah bias, Wout adalah output weight matrix, bout adalah bias output ;  adalah fungsi activation dari hidden layer dan output layer ;  
  9. Maximum hidden state output hmax adalah 
  10. Half-frame model memasukan state dari middle sequence sebagai tambahan dari state dari end of sequence
  11. Untuk mendapatkan fixed-lentg representation digunakan maximal length N dan minimal length n pada stream manapun. Minimal n ditetapkan 15, N dicoba pada nilai 50, 100, 200 dan 65536
  12. Logistic regression dan multi-layer perceptron dengan rectifier unit digunakan untuk melakukan klasidikasi proyeksi fixed-length
  13. Menggunakan droupout untuk menampilkan peningkatan generalisasi dari model MLP
  14. RNN dan ESN ditraining secara terpisah pada klasifier
  15. Feature extractor ditrain dengan model unsupervised
  16. Dataset malware dan benign didapat dari microsoft. 
  17. Pada training, analis menyediakan event streams dari 250000 file malware yang dipilih secara random dan 250000 benign file yang dipilih secara random.
  18. Pembagian dataset adalah, pada training 297.500, validasi 54.500 dan 150.000 pada tes
  19. Training dilakukan pada segment dengan length 100 event
  20. Raw event stream terdiri dari 114 high level event yang berbeda, yang melaulan encode semua low-level API
  21. Hyper-parameter dari proyeksi dan klasifikasi model di tuned.
  22. Pada tahapan klasifikasi digunakan logistic regression dan 2 hidden-layer MLP

Main result

  1. Hasil pengujian menunjukan model hybrid dengan ESN pada model recurrent, max-pooling pada sampling non-linear dan logistic regression untuk klasifikasi akhir
  2. Dibandingkan dengan model trigram of event, menghasilkan performa lebih baik dengan true positive rate 98,3% dengan false positive rate 0,1%
  3. Pada model logistic regression dan MLP optimal learning rate adalah 1.0
  4. Dropout pada MLP memiliki probability 0,5
  5. Hidden layer dari MLP memiliki 1024 unit den menggunakan rectifier activation function. Learning rate setengah ketika validation error meningkat
  6. Ukuran dari fixed-length representation adalah 3000 untuk semua model recurrent
  7. Spectral radius awal 0,99
  8. Learning rate training adalah 1
  9. False positive rate adalah 0,1%
  10. True positive rate model trigrams adalah 36,17% lebih baik daripada bag of events model 24,46%
  11. TPR dari model ESN adalah 71,71% pada FÜR 0,1%; lebih baik daripada event trigrams 

Note

  1.  RNN- excellent results pada language modelling, online handwritten recognition dan generation, speech recognition
  2. ESN success dalam prediksi chaotic systems. 
  3. In malware, Most informative part of a sequence occurs at the beginning of the sequence and may be forgotten by standard recurrent models

Silahkan tuliskan tanggapan, kritik maupun saran