Paper Title: Deep Self-Supervised Clustering of the dark web for cyber threat intelligence
Authors: Masashi Kadoguchi, Hanae Kobayashi, Shota Hayashi, Akira Otsuka, Masaki Hashimoto
Venue : 2020 IEEE International Conference on Intelligence and Security Informatics (ISI)
URL: https://ieeexplore.ieee.org/document/9280485
Problem:Bagaimana menggunakan machine learning untuk memprediksi serangan cyber berdasarkan threat intelligence informasi dari posting forum di dark web?
Contribution:
- Merancang sebuah metoda threat intelligence untuk mengekstrak informasi secara otomatis dari posting forum Dark Web
Method/solution:
- Menggunakan machine learning (K-means clustering), Deep clustering dan doc2vec (teknik nlp)
- Ekstrak forum post yang mengandung informasi critical post (jual beli malware, teknik hacking, info kredit card dan rencana serangan siber)
- Data dikumpulkan dengan melakukan web crawling pada dark web. 850 forum post terkait jual beli malware menggunakan tools sixgill
- Menggunakan doc2vec untuk feature extraction.
- Preprocessing menggunakan tokenization, cleaning, normalization, stemming dan stop-words
- Feature yang telah diekstrak menjadi input autoencoder.
- Output encoder dikalsifikasikan menjadi cluster dengan K-means
- Hasil klasifikasi menjadi pseudo label
- weight autoencoder di update untuk optimasi clustering
- Dimensi 200, iterasi learning 300
- Menggunakan keras
Main result:
- Hasil training 6 dari 8 cluster jelas terkait tentang jual beli malware
- 2 cluster berisi campuran post, didefinisikan sebagai kesalahan klasifikasi
- 57% posts diklasifikasikan dengan akurasi 97% dengan teknik self-supervised learning
- Visualisasi cluster menggunakan algoritma t-distributed stochastic neighbor embedding (t-SNE)
Limitation:
- Jumlah dataset kurang
- Proses optimasi parameter terlihat mencoba-coba (trial and error)
- Methodnya kurang dijelaskan secara komprehensif forum darkweb apa saja yang diteliti
- Metode self-supervise learning yang digunakan tidak dijelaskan secara komprehensif