Deep Self-supervised Clustering DarkWeb-Kadoguchi- paper review


Paper Title: Deep Self-Supervised Clustering of the dark web for cyber threat intelligence

Authors: Masashi Kadoguchi, Hanae Kobayashi, Shota Hayashi, Akira Otsuka, Masaki Hashimoto

Venue : 2020 IEEE International Conference on Intelligence and Security Informatics (ISI)

URL: https://ieeexplore.ieee.org/document/9280485

Problem:Bagaimana menggunakan machine learning untuk memprediksi serangan cyber berdasarkan threat intelligence informasi dari posting forum di dark web?

Contribution:

  1. Merancang sebuah metoda threat intelligence untuk mengekstrak informasi secara otomatis dari posting forum Dark Web

Method/solution:

  1. Menggunakan machine learning (K-means clustering), Deep clustering dan doc2vec (teknik nlp)
  2. Ekstrak forum post yang mengandung informasi critical post (jual beli malware, teknik hacking, info kredit card dan rencana serangan siber)
  3. Data dikumpulkan dengan melakukan web crawling pada dark web. 850 forum post terkait jual beli malware menggunakan tools sixgill
  4. Menggunakan doc2vec untuk feature extraction.
  5. Preprocessing menggunakan tokenization, cleaning, normalization, stemming dan stop-words
  6. Feature yang telah diekstrak menjadi input autoencoder.
  7. Output encoder dikalsifikasikan menjadi cluster dengan K-means
  8. Hasil klasifikasi menjadi pseudo label
  9. weight autoencoder di update untuk optimasi clustering
  10. Dimensi 200, iterasi learning 300
  11. Menggunakan keras

Main result:

  1. Hasil training 6 dari 8 cluster jelas terkait tentang jual beli malware
  2. 2 cluster berisi campuran post, didefinisikan sebagai kesalahan klasifikasi
  3. 57% posts diklasifikasikan dengan akurasi 97% dengan teknik self-supervised learning
  4. Visualisasi cluster menggunakan algoritma t-distributed stochastic neighbor embedding (t-SNE)

Limitation:

  1. Jumlah dataset kurang 
  2. Proses optimasi parameter terlihat mencoba-coba (trial and error)
  3. Methodnya kurang dijelaskan secara komprehensif forum darkweb apa saja yang diteliti
  4. Metode self-supervise learning yang digunakan tidak dijelaskan secara komprehensif

Silahkan tuliskan tanggapan, kritik maupun saran