Deteksi Malware dengan Metoda Data Mining

Saya lagi baca paper tentang deteksi malware dengan metoda data mining. Paper ini ditulis oleh Ms. Shital Balkrishna Kuber dari India. Judul lengkapnya A Survey on Data Mining Methods for Malware Detection. Di bagian awal , paper ini bercerita tentang berbagai metoda deteksi malware. Ada Signature Based, Heuristic Based dan Specification Based. Kemudian Kuber melakukan studi literatur tentang beberapa teknik deteksi malware dengan metoda data mining.

Paper pertama yang dibahas adalah dari D.Bilar dengan judul Opcodes as predictor for malware. Pada paper ini dipelajari tentang opcode frequency distributions untuk mengidentifikasi dan membedakan malware. Jadi diusulkan penggunaan analisa statistik dari distribusi opcode. Dari hasil pengujian ditemukan bahwa opcode berikut yang sering muncul seperti move, push, call dll tidak dapat dijadikan indikator keberadaan sebuah malware. Namun keberadaan opcode yang jarang muncul seperti add, sub, ja, adc dll justru dapat dijadikan indikator adanya malware pada sebuah sistem.

Paper kedua masih dari D. Bilar, Callgraph properties of executables and generative mechanisms,” . Kali ini dia melakukan analisa struktur call graph dari 120 malware dan 200 benign. Semua sampel dibikin graphnya. Source code disusun struktur fungsinya. Fungsi ini didapat dari proses disassembly sampel. Kemudian dibuat semacam flowchart, dan dibandingkan cabang dari instruksi. Cabang yang pendek digunakan untuk menyampaikan kontrol dari sebuah fungsi dari sampel, sementara cabang yang paanjang digunakan untuk memanggil fungsi lain. Cabang yang pendek tidak memberikan return adress dari memori.  Kemudian dibuat CFG (call function graph. CFG ini dibandingkan. Bilar menyimpulkan malware cenderung memiliki jumlah blok dasar yang rendeh. CFG malware memiliki interaksi yang lebih sedikit, cabang yang lebih sedikit dan fungsi yang terbatas. Sementara file benign cendering memiliki jumlah blok yang lebih banyak dengan interaksi yang lebih kompleks

Sekar menggunakan pendekatan Finite State Automaton (FSA) approach. FSA. Membangun FSA tanpa perlu aksesk ke source code program. Kemudian metode ini dibandingkan dengan analisa n-gram.

Wei-jen Li melakukan analisa pada file PDF malware. Kemudian melakukan analisa n-gram, dan membuat model malware.

Santos menggunakan signature n-gram untuk deteksi malware. Pada n=2, tingkat deteksi malware rendah, sementara pada  n=4, deteksi malware sangat baik.

Santos melakukan analisa juga sequence opcode.  Kemudian dibangun classifier machine learning, untuk membedakan malware dan benign.

Shabtai menggunakan analisa statik untuk menguji sistem deteksi malware. Pengujian dilakukan dengan analisa ngram dengan (N=1 to 6) pada berbagai classifiers. Hasilnya ditemukan bahwa N=2 menghasilkan performa terbaik. Untuk deteksi digunakan juga pola opcode n-gram untuk ekstraksi fitur. pemilihan feature dan algoritma deteksi.

Papernya bisa dilihat disini:

Klik untuk mengakses A-SURVEY-87.pdf

Semoga Bermanfaat!

Silahkan tuliskan tanggapan, kritik maupun saran