Kemaren pas sharing tentang penelitian malware di acara RKB Pak Budi, ada yang nanya tentang gimana caranya dapetin dataset malware. Berikut ini saya kumpulkan beberapa dataset malware yang bagus:
- Sorel20M: dari sophos dan reversing labs, ada 20 juta sampel malware, punya fitur detection metadata, label dan binary
- Ember: 1,1 juta PE malware
- BODMAS: dari UIUC & blue hoxagon ada 57.293 malware dan 77.142 dalam 581 family.
- Malimg: PE malware dari Nataraj ada 9ribuan malware dibagi dalam 25 family
- API-Call dataset: dari Ferhat Ozgur Catak, dataset api call malware windows diekstrak dari cuckoo sandbox
- Virusshare: ada sekitar 37 juta sampel, musti register dulu kirim email ke [email protected]
- Kaggle-Android : dari Shashwat Tiwari, dari 15.036 aplikasi android, (5.560 malware dari Drebin project dan 9.476 benign)
- PE Malware-Image: dari angelo oliveira, image greyscale 32 x 32, malware dari virusshare.com. benign dari portableapps.com dan Windows 7 x86 directory.
- MalwareZoo: dari ytisf
- Contagio : koleksi Mila
- Inquest: punya beragam fitur seperti Deep file inspection (DFI), Aggregate reputation database, Indicators of compromise (IOC), Base64 regular expression generator, Mixed hex case generator, UInt() trigger generator dll
- Malware Bazar: menyediakan informasi dan statistik malware
- Hybrid Analysis: ada fitur analisa malware, berbayar
- URLhaus: lebih ke malicious url
- VirusBay: platform kolaborasi
- OpenAVN: berbayar
- bisa dicari juga di https://datasetsearch.research.google.com/ dan https://www.kaggle.com/datasets
- Bisa juga ngumpulin sendiri pake Honeypot
Ada yang mau nambahin?
Semoga Bermanfaat!
referensi: