Deteksi Malware Deep Learning based- Aslan


Teknik Deep Learning merupakan bagian dari Machine Learning, teknik ini merupakan pengembangan dari ANN (Artificial Neural Network). Teknik ini cukup efektif mendeteksi malware dan mengurangi feature space, namun rawan terhadap serangan evasion. 

Beberapa penelitian tentang teknik deteksi malware dengan deep learning:

  • Dahl et.al mengajukan sistem klasifikasi malware menggunakan random projections dan neural network. Dimensionality dari original input space dikurangan dengan faktor 45 (179/4K). Menggunakan 2,6 juta sampel yang telah diberi label kemudian dilakukan training dan diperoleh hasil klasifikasi dengan dua kelas error rate 0,49% untuk single neural network dan 0,42% untuk ensemble neural network. Menurut Dahl menambahkan hidden layer tidak akan meningkatkan akurasi. 
  • Yuan et.al mengembangkan sistem deteksi berbasis Deep Learning Droid-Sec. Yuan melakukan analisa statik dan dinamik dan melakukan ekstraksi lebih dari 200 features. Kemudian melakukan pre-training unsupervised dan supervised back-propagation. Pada pre-training Yuan menggunakan deep belief network (DBN)  dengan RBM (restricted Boltzman machine) yang dikembangkan oleh Bengio et.al. Teknik ini menurut Yuan dapat melakukan karakterisasi app android lebih baik. Pada tahapan back-propagation, hasil pretrainng diberi label. 
  • Saxe dan Berlin mengembangkan sistem deteksi DL menggunakan 2 dimensi binary feature. Framework yang diajukan terdiri dari 3 bagian: 1) 4 tipe complementary feature berbeda, dari sampel benign dan malicous diekstrak; 2) DNN yang terdiri dari layer input, 2 hidden layer dan sebuah output layer; 3) score calibrator yang menerjemahkan output dari neural network digunakan dan probabilitas malware diukur. sistem menghasilkan 95% DR dan 0,1% FPR pada 400.000 dataset. Meskipun sistem ini menghasilkan tingkat akurasi yang tinggi pada standard cross-validation, performa menurun ketika splid-validation digunakan. Masalah ini dapat diatasi dengan melakukan deobfuscation binary sebelum proses ekstraksi feature. 
  • Huang dan stokes mengajukan sebuah sistem Multi-task deep learning (Mt-net) untuk klasifikasi malware. Sistem ini melakukan training dari data yang diekatrak dari proses analisa dinamis dari malicious dan benign. Sistem melakukan training pada 4,5 juta file dan pengujian pada 2 juta file. MtNet juga menggunakan ReLu (rectified linear unit) untuk fungsi aktifasi dan droput hidden layer. Aktivasi ReLU ini mengurangi jumlah Epoch yang dibutuhkan untuk training classifier menjadi setengahnya, sementara itu drouput menyebabkan reduksi pada test error rate secara signifikan. Keterbatasan sistem ini adalah hampir tidak mungkin untuk meningkatkan performa model dengan menambahkan layer tambahan. Selain itu MtNet juga rentan terhadap serangan dan teknik evasion

Walaupun teknik DL baru dan cukup prospektif, namun teknik ini masih rentan terhadap serangan evasion. 

  • Grosse et.al meneliti keberadaan teknik adversarial pada Deep neural network. Menurut Grosse, teknik adversarial dapat menghasilkan kesalahan klasifikasi pada model ML. Pengujian dilakukan pada dataset Drebin. Grosse menghasilkan tingkat kesalahan klasifikasi 80%.
  • Kolosnjaji et.al menggunakan teknik serangan gradient-based untuk mengelabui DNN menggunakan eksploitasi raw bytes. Pengujian dilakukan dengan merubah bytes tertentu pada bagian akhir sampel, dan tidak merubah bagian malicious. 

Teknik DL ini powerful, efektif dan menghasilkan feature space yang lebih sedikit, namun tidak kebal terhadap serangan evasion. Selain itu membangun sebuah hidden layer membutuhkan waktu dan menambah hidden layer tambahan tidak berpengaruh terhadap performa.  Sampai disini dulu, besok insyaallah akan saya lanjutkan dengan teknik deteksi cloud-based deteksi

Reference:

Aslan, Ö. A., & Samet, R. (2020). A comprehensive review on malware detection approaches. IEEE Access, 8, 6249-6271.

,

Silahkan tuliskan tanggapan, kritik maupun saran