Malware detection visualization- Pinhero


Saya lagi baca paper malware detection employed by visualization and deep neural network, karya Pinhero dkk dari Jurnal computers and security elsevier. Menurut dia klasifikasi malware secara otomatis masih banyak masalah:

  1. Ekstraksi fitur: analisa statik bisa dihindari dengan teknik obfuscation. Sementara itu analisa dinamik butuh waktu lama dan bisa dikelabui dengan teknik evasion
  2. Membangun model prediksi: Dataset training kualitasnya akan menurun seiring waktu sehingga tidak cukup untuk mendeteksi family malware tertentu.

Pinhero coba pake teknik visualisasi malware, dengan klasifikasi deep learning. Mereka menguji 12 arsitektur neural network berbeda dengan dataset sebanyak 20.199 malware mendapatkan hasil F-measure 99,97%. Dataset yang dipake dari Microsoft malware classification challenge BIG 2015 dan Malimg. Sampel Benign dikumpulkan dari berbagai sumber dan dianalisa dengan virustotal. Dataset malimg di reverse menjadi hexadesimal, kemudian diindeks ke colourmap, dimana intersection dari baris dan indeks kolom menentukan sebuah piksel.

Dataset Microsoft Malware classification (BIG 2015) memiliki 10.860 malware dengan 9 family. Dari dataset ini yang digunakan adalah data raw (rheksadesimal dari konten file biner). Dataset benign terdiri dari 12.971 sampel, dikumpulkan dari berbagai market place seperti: softonic, sourceforge, portable freeware dan driverpack solution. Kemudian diuji ke virustotal. Hanya yang 100% benign dari hasil virustotal yang digunakan.

Malware divisualisasikan sebagai grayscale, RGB dan markov. Dilakukan juga analisa teksture dengan filter gabor. Ukuran gambar diubah jadi 4 macam, 32×32, 64×64, 128×128 dan 256×256. Arsitektur yang digunakan diantaranya VGG3, ResNet50.

Dari hasil pengujian didapat hasil terbaik pada gambar RGB 256×256 dengan akurasi 97,38% untuk dataset pertama dan 99,21% untuk dataset ke dua. Klasifer dengan markov menghasilkan akurasi dan nila F-measure lebih baik dibandingkan gambar rgb dan grayscale.

Gabor menghasilkan nila F 99,2%. Dilakukan segmentasi eksekutable menjadi blok berikut: computed block entropy, dan representasikan blok entropi dalam bentuk gambar.

Varian malware pada family yang sama memiliki entropy gambar yang mirip. Model CNN terbaik adalah VGG3 baseline, VGG3 dengan dropout, VGG3 dengan dropout dan batch normalization dan ResNet-50

referensi:

https://www.sciencedirect.com/science/article/pii/S0167404821000717?casa_token=bsiakb1xWt4AAAAA:Js1WlNtizUsg6ahl9Jl9zG9FUSOgwqxWQiF0nPOYht3Red53DEpyP2UcmtpNgOr6vD5SP9z_Qtw


Silahkan tuliskan tanggapan, kritik maupun saran