Malware image Classification – Nataraj – Review Paper

Paper TitleMalware Images: visualization and automatic classification

Authors: L Nataraj, S.Karthikeyan, G.Jacob, B.S.Manjunanth

Venue         : ACM Proceedings of the 8th International Symposium on Visualization for Cyber Security

URLhttps://doi.org/10.1145/2016904.2016908

Problem: Metode deteksi malware saat ini menggunakan analisa statik dan dinamik. Namun keduanya membutuhkan waktu yang besar dan membutuhkan resource hardware yang memadai. Selain itu juga beberapa malicious behaviour tidak dapat diamati dengan setting environment yang ada. Untuk itu perlu ada pendekatan analisa malware baru

Contribution

  1. Mengajukan metode baru dalam analisa malware. Malware sampel diubah dari bentuk binary string 0 dan 1, menjadi sebuah matrix dan menjadi gambar. 
  2. Menemukan bahwa terdapat kemiripan visual dari texture gambar dari sampel malware yang berada dalam family yang sama
  3. Metode yang diajukan resilient terhadap teknik obfuscation seperti encryption

Method/solution

  1. Binary malware dibaca sebagai sebuah vector 8 bit integer, kemudian diatur menjadi array 2 dimensi
  2. Vector 8 bit diubah menjadi gambar grayscale (0: black; 255 white)
  3. Lebar gambar fix, tingginya berbeda-beda mengikuti ukuran file
  4. Untuk menghitung feature texture gambar digunakan GIST, yang menggunakan dekomposisi wavelet dari gambar
  5. Menggunakan steerable pyramid dengan 8 orientasi dan 4 skala pada gambar
  6. Representasi lokal dari gambar   N=20 adalah jumlah sub-band
  7. Untuk menangkap properti global namun tetap mendapatkan property local dihitung nilai rata-rata dari magnitude feature local :  ; w(x) adalah averaging window
  8. Hasil representasi di downsampled menjadi 4×4 pixel; 
  9. Dimensi GIST feature adalah 320
  10. Menggunakan k-NN dengan Euclidiean distance untuk klasifikasi
  11. Melakukan 10 fold cross validation, dimana pada setiap tes, sebuah subset random dari sebuah kelas digunakan untuk training dan testing
  12. Pada setiap iterasi,tes memilih secara random 90% data dari sebuah kelas pada training dan 10% pada testing
  13. Sampel berasal dari Anubis, diklasifikasikan menjadi beberapa family berdasarkan label dari Microsoft Security Essentials
  14. Dataset terdiri dari 8 family malware dengan total 1713 gambar
  15. GIST image feature dihitung pada setiap gamber, rata2 waktu utk menghitung feature GIST pada sebuah gambar adalah 54ms
  16. High dimensi GIST Feature diproyeksikan ke lower dimensional space untuk analisa
  17. Pengujian ditambahkan sampel 123 benign dari file system Win32 dan aplikasi
  18. Distribusi sampel 335 instantaccess.(A), 485 Yuner.A (B); 111 obfuscator.AD (C); 80 skintrim.N (D), 298 Fakerean(E), 88 Wintrim.BX(F), 97 VB.AT(G) dan 219 Allaple.A(H)
  19. Pengujian berikutnya dengan 25 family malware dengan total 9458

Main result

  1. Ditemukan bahwa sections malware yang berbeda menghasilkan texture gambar yang berbeda; contohnya sections text, rdata, data dan rsrc memiliki pola gambar yang berbeda
  2. Section .text umumnya berisi kode executable, pada kasus trojan Dontovo.A polanya bada bagian awal terlihat halus (fine grained), yang diikuti dengan zeros (hitam), yg menunjukan zero padding pada bagian akhir section
  3. Section .data memiliki pola uninitialized code (black patch) dan initialized data (fine grained)
  4. Section .rsrc yang berisi semua resource dari modul terlihat hitam
  5. Feature poin pada family Allaple.A, VB.AT, Wintrim.BX, Yuner.A dan Fakerean mudah dipisahkan
  6. NAmun pada family Instantaccess, Obfuscator.AD dan Skintrim.N agak sulit dipisahkan, dan terlihat serupa
  7. Menggunakan k-NN (k-3) dengan 10 fold cross validation diperoleh classification rate 0,9993 dengan standar deviasi 0,0019 dari 10 pengujian
  8. Dari dataset baru classification rate 0,9929 dari 10 fold cross validation dengan standar deviasi 0,002
  9. Family Yuner.A, VB.AT, Malex.gen!J, Autorun.K, Rbot!gen dipack dengan UPX
  10. Akurasi Classification 0,9718 pada 25 family
  11. Akurasi setelah packing 0,9808
  12. Dapat melakukan klasifikasi pada malware yang memasukan engine polymorphic dan section encryption

Limitation:

  1. Malware yang menggunakan teknik packing terklasifikasi sebagai family yang sama
  2. Rentan terhadap teknik relocating section binary atay menambah redundant data.

Silahkan tuliskan tanggapan, kritik maupun saran