Sebelum ada Sorel20M, ada satu Dataset Malware yang dishare publik yaitu EMBER (bukan temennya gayung). EMBER ini dataset yang bisa digunakan untuk membuat model machine learning buat deteksi malware Windows Portable executable. Dataset ini menyediakan 1,1 juta file binari: terdiri dari 900 ribu sampel training (300 ribu malicious, 300 ribu benign, 300ribu unlabeled) dan 200ribu sampel tes (100ribu malicious, 100ribu benign). Selain itu disediakan juga source code untuk mengekstrak feature dari binari tambahan.
Penjelasan tentang dataset ini bisa dilihat pada link berikut:
https://www.elastic.co/de/blog/introducing-ember-open-source-classifier-and-dataset
Datasetnya bisa dilihat pada link berikut
https://github.com/elastic/ember
https://github.com/mrphilroth/camlis-ember-improvements
Slide presentasi ttg ember
https://www.camlis.org/2019/talks/roth
Paper tentang Ember
https://arxiv.org/abs/1804.04637
Source code