Malware Data Science – Saxe


Saya lagi baca buku Malware Data science karya Joshua saxe dan Hillary Sanders. Buku ini tentang implementasi data science pada deteksi malware. Saxe dan Sanders ini peneliti di Sophos, perusahaan anti virus. Saya akan coba rangkum beberapa catatan menarik dari buku ini dalam beberapa tulisan.

Data science adalah sekumpulan dari tools algoritma yang digunakan untuk memahami data dan membuat prediksi menggunakan statistik, matematik dan data visualisasi. 3 komponen data science: 

  • Machine learning
  • Data mining
  • data visualization

Dalam bidang keamanan, algoritma ML digunakan untuk melakukan training data untuk mendeteksi ancaman baru. Ada 3 alasan kenapa data science sangat penting dalam masa depan cybersecurity:

  1. Security is all about data: Ketika kita melakukan deteksi sebuah ancaman, kita melakukan analisa berbagai data seperti file, logs, network packet dan artifact lainnya. Biasanya data2 ini dianalisa secara manual kemudian dicatat hash-nya, dibuat signature-nya dan rule heuristic.
  2. Jumlah serangan meningkat pesat. Tahun 2008 ada 1 juta sampel malware, Tahun 2012 ada 100 juta. Tahun 2018 ada sekitar 700 juta menurut AV-test. Data science dapat digunakan untuk melakukan deteksi secara otomatis dan mengurangi pemakaian memori yang dibutuhkan untuk mendeteksi serangan tersebut.
  3. Data science adalah tren dari dekade ini. Kita bisa liat implementasi data science pada voice asisstants (Amazon echo, Siri, Google Home), pada self driving cars, recommendation system, web search engines, sistem analisa gambar medik, dan aplikasi olahraga. 

Buku ini dibagi 4 bagian. Bagian pertama membahas tentang dasar analisa malware, yang dibagi dalam 3 bab:

  • Bab 1: Analisa statik
  • Bab 2: dasar dissassembly dan reverse engineering
  • Bab 3: ANalisa dinamis

Bagian kedua tentang analisa hubungan malware, diantaranya mencari kemiripan dan perbedaan dari berbagai sampel. Cara ini dapat digunakan untuk melakukan identifikasi serangan malware dan threat intelligence

  • Bab 4: identifikasi aktifitas malware di jaringan
  • Bab 5 Identifikasi dan visualisasi hubungan dan kemiripan kode antara berbagai sampel. Dapat digunakan untuk mengidentifikasi penyerang

Bagian ketiga tentang teknik deteksi malware menggunakan machine learning

  • Bab 6: Dasar teknik deteksi machine learning .
  • Bab 7 menguji akurasi sistem deteksi menggunakan metode statistik
  • Bab 8 membangun sistem deteksi dengan mesin learning dengan berbagai tools open source
  • bab 9 membangun sistem visualisasi ancaman malware dengan python

 Bagian keempat tentang Deep learning

  • Bab 10 dasar deep learning
  • Bab 11: membangung sistem deteksi malware berbasis neural network dengan Keras
  • Bab 12: Bagaimana menjadi data scientist
  • Appendix: penjelasan tentang tools dan data2 pendukung

Data pendukung buku ini dapat diunduh pada link berikut https://www.malwaredatascience.com. Kode tersebut dibuat pada OS Linux. 

Sampai disini dulu, besok saya akan lanjutkan dengan bahasan bab pertama dasar analisa statik. Semoga bermanfaat!

reference:

Saxe, Joshua, and Hillary Sanders. Malware Data Science: Attack Detection and Attribution. No Starch Press, 2018.

 

 

,

Silahkan tuliskan tanggapan, kritik maupun saran