Android Malware negative-day hunting- Yuan-paper review

Paper TitleTowards Large-Scale Hunting for Android Negative-day Malware

Authors: Lun-Pin Yuan, Wenjun Hu, Ting Yu, Peng Lie, Senchun Zhu

Venue: Usenix 22nd International Symposium on Research in Attacks Intrusions and ­Defenses

URL: https://www.usenix.org/system/files/raid2019-yuan.pdf

Problem: Dibutuhkan waktu minimum 6 bulan bagi para peneliti malware untuk membuat signature sebuah malware Zero Day. Bagaimana cara mendeteksi malware pada fase awal sebelum malware di deploy (Negative-Day)?

Contribution:

  1. Mengajukan sistem Lshand (Large Scale Hunting for Android Negative-Days), yang dapat mendeteksi malware Android Neg-Day (malware yang masih dalam tahap development) melalui analisa submission pada online scanner
  2. Merancang dan implementasi Lshand untuk mengatasi 3 tantangan berikut: hubungan malware yang minim pada binary, minimnya bukti pengembangan malware terkait identity dan scalability
  3. Menguji Lshand dengan 2 dataset, 10 kasus neg-day malware yang disubmit ke Virustotal pada Januari 2016 dan 15 kasus neg-day pada bulan Mei 2018

Method/solution

  1. Mencari kesamaan dari submisi malware
  2. Memilih feature yang tidak diobfuscasi, seperti set of permissions, contacted hosts, numbers of components, dll
  3. Lshand terdiri dari: sebuah data digestor, sebuah report clusterer, sebuah AMDT (Android Malware Development Trace) extractor dan sebuah Neg-Day alerter
  4. Lshand melakukan clustering report malware (format text terstruktur), bila dibutuhkan melakukan klasifikasi sampel (binary) berdasarkan kemiripan dan maliciousness
  5. Data digestor mencari submisi baru terkait android, contohnya memiliki label android, dari package information, informasi kompresi (apk, dex); 
  6. Submisi baru dilihat dari „last-seen“ atau timestamp last-scan dari metadata
  7. LShand Report clusterer mencari DT (development trace) setiap submisi. Dengan mencari hubungan antara sampel-malware
  8. Feature yang diekstrak adalah submission timestamp, package information, compression information, behavioral information
  9. AMDT extractor mengekstrak AMDT, dengan menguji deteksi ratio r
  10. Neg-day memberi alert
  11. Model clustering yang digunakan adalah incremental density-based clustering 
  12. Weighted diperoleh dengan mengumpulkan 50 AMDT dan dilakukan kategori light, medium dan heavy. Kategori heavy ada 3 yaitu package number of activity, number of services dan number permission by category
  13. Clustering threshold τ awalnya diset besar, kemudian dituning kebawah
  14. Pengujian dilakukan pada dataset 1: submisi virustotal pada bulan Januari 2016, yang memiliki 1,3 juta submission android dari 3852 submitter.
  15. Pengujian dilakukan pada dataset 2: submisi virustotal bulan mei 2018
  16. Beberapa teknik Obfuscation yang dipertimbangkan dalam perancangan Lshand: package name, class name, method and variable name, inter-component interaction injection, dataflow-analysis evasive code injection, native code and bytecode injection, daummy and benign methods injection and dropper payload loadin
  17. Beberapa teknik Evasion yang dipertimbangkan: incrementally adding large number of dummy activities, dummy services, irrelevant files (number of activities, service and files)
  18. Beberapa teknik anonym yang digunakan penulis malware yang dipertimbangkan: menggunakan akun free yang berbeda, menggunakan proxy berbeda (atau tor) , submit irrelevant apps, tidak submite 100 sampels per hari,akun, proxy

Main result

  1. Lshand berhasil 10 kasus neg-day pada dataset 1, yang terdiri dari 48 sampel malware hanya dalam waktu 1 jam. 48 sampel tersebut diberi label benign oleh 62 antivirus pada virusTotal pada bulan januari 2016, 
  2. Sampel tersebut dianalisa secara manual dan discan dengan Palo Alto Networks Wildfire dan terdeteksi sebagai malware
  3. Lshand menemukan 15 neg-day pada dataset 2. Hasil analisa manual  menemukan 80% sampel adalah malware atau greyware
  4. Kasus Neg-day malware yang dideteksi diberi label, Dnotua, Dowgin, Ewind, Huer, Jiagu, Rootnik, SmsPay, SMSref, dan Triada, SLocker, Triada
  5. 96 dari 253 sampel menggunakan teknik xor-encrypted
  6. Ditemukan 2 kasus false-positive (54 app) yang dibuat oleh Appbyme
  7. Memperoleh similarity score 96,77% dan skor maliciousness 31,25%
  8. Menghasilkan performa lebih baik dibandingkan metode SSDC dengan akurasi 99,16%

Limitation:

  1. Hanya dapat mendeteksi sampel yang disubmit dan revisi berulang
  2. Tidak dapat medeteksi sampel yang dibuat dengan sebuah proxy app-creation platform
  3. Tidak dapat mendeteksi malware yang menambahkan large number of dummy component atau files
  4. Tidak melakukan pengujian ground-truth

Image Malware Classification with LBP – Luo – Review Paper

Paper TitleBinary Malware image Classification using Machine learning with local binary pattern

Authors: Jhu-sin Luo, Dan chia-tien lo

Venue: 2017 IEEE international Conference on Big Data

URL: 10.1109/BigData.2017.8258512

Problem: Klasifikasi malware adalah bagian penting dalam pengamanan jaringan. Namun metode klasifikasi malware saat ini masih mengandalkan metode deteksi tradisional untuk mendeteksi malware, yaitu analisa statik dan dinamik. Teknik ini memiliki beberapa kelemahan, untuk itu dibutuhkan pendekatan baru dalam klasifikasi malware. 

Contribution:

Mengajukan metode klasifikasi malware baru menggunakan image binary dan ekstraksi local binary pattern (LBP) feature

Method/solution:

  1. Melakukan konversi malware ke greyscale dalam range [0,255], dengan lebar fix dan tinggi bebas
  2. Binary malware dibaca sebagai sebuah vector 8 bit unsigned integer, kemudian diatur menjadi array 2D
  3. Setiap pixel dari image malware diatur menjadi grid 3×3 agar memudahkan proses ekstraksi descriptor LBP
  4. Nilai pixel central adalah threshold. * pixel tetangganya dibandingkan dengan nilai central pixel. 
  5. Bila nilai pixel tetangganya lebih besar dari central pixel, maka nilai tetangga menjadi 1
  6. Bila lebih kecil dari threshold, maka ditulis 0.
  7. Hasil threshold dikalikan dengan weight yang merupakan pangkat 2.
  8. Central value adalah jumlah dari hasil perkalian.
  9. Untuk setiap pixel lakukan proses yang sama
  10. Descriptor LBP final didapatkan dengan menghitung histogram gambar
  11. Training dan testing menggunakan tensorflow
  12. Convolutional filter yang digunakan 3×3 dengan RelU, kemudah dilakukan 2×2 max pooling layer dengan stride 2 untuk downsample
  13. Nilai convolutional filter pertama adalah 16
  14. Ukuran convolutional filter kedua juga 3×3 dengan 32 filter. 
  15. Output max pooling adalah multi dimensi
  16. Dataset terdiri dari 32 family dengan jumlah 12000 image malware greyscale.
  17. Tipe malware adalah trojan, password steeler dan virus
  18. 20% malware digunakan untuk training, dan sisanya untuk pengujian
  19. Menggunakan tensorflow untuk klasifikasi fitur LBP, dan menggunakan fitur LBP untuk training klasifier SVM dan classifier KNN
  20. Menggunakan fitur GIST dengan tensorflow dengan KNN dan SVM

Main result

  1. Malware family 28,29,30 yaitu Virut.A, Virut.AC dan Virut.AT lebih sulit untuk diklasifikasi
  2. Tensorflow dapat membedakan ketiga malware tersebut dengan akurasi yang lebih tinggi
  3. Waktu eksekusi lebih pendek dengan GPU
  4. Akurasi dengan fiture LBP lebih baik 93,17% 
  5. Waktu eksekusi lebih baik daripada sistem pembanding

Limitation:

  1. Metode ini dapat dikelabui oleh malware yang di-rewrite dengan cara lain atau menggunakan instruksi yang berbeda
  2. Jumlah family malware terbatas
  3. Tidak mencoba menggunakan RGB

File Entropy Wavelet Malware-Guo-ReviewPaper

Paper TitleFile Entropy signal analysis combined with wavelet decomposition for malware classification

Authors: Hui Guo, Shuguang huang, Cheng huang, Zulie pan, Min zhang, fan shi

Venue: IEEE access vol 8 – 158961 – 158971

URL: https://doi.org/10.1109/ACCESS.2020.3020330

Problem: Penulis malware banyak menggunakan (reuse) source code malware yang sudah ada untuk membuat malware baru. Malware ini biasanya memiliki kemiripan dan dapat digolongkan ke dalam variant malware atau family malware yang sama. Melakukan klasifikasi variant malware ini membutuhkan waktu dan resource computing yang besar. Untuk itu diperlukan pendekatan baru untuk melakukan klasifikasi varian malware.

Contribution

  1. Mengajukan metoda klasifikasi baru menggunakan feature entropy biner. Metode ini melakukan konversi raw bytes malware menjadi sequence entropy dan melakukan ekstraksi feature struktural berbasis pada teknik sinyal prosesing
  2. Implementasi MESRF, sebuah framework untuk mengekstrak feature dari malware dan mengkombinasi mereka dengan sebuah classifier untuk melakukan klasifikasi variant malware. Framework ini dapat meningkatkan kemampuan untuk melakukan klasifikasi variant malware pada family yang sama
  3. Hasil pengujian menunjukan MESRF dapat menyelesaikan permasalahan kesalahan klasifikasi family malware yang sama dibandingkan metode yang sudah ada

Method/solution

  1. Ekstrak sequence entropy dary raw bytes ke malware
  2. Mining feature di entropy, dan menampilkan sequence entropy menjadi sinyal
  3. Menggunakan 2 feature global dan local. 
  4. Global feature diekstrak dari karakteristik statik seperti length, nilai mean, maximum, standard deviation dan rasio minimum. 
  5. Untuk karakteristik lokal (struktural) sinyal entropy diperoleh dengan algoritma Discrete wavelet decomposition dan vektorisasi feature lokal berbasis model bag-of-words.
  6. Kemudian ditrain dengan machine learning dan malware diklasifikasikan untuk menentukan family dari sampel malware baru
  7. Raw byte malware dibagi menjadi blok 256, agar bisa mendapatkan value 00-FFh
  8. Bila ukuran blok tidak 256 dan bisa mencapai 128 maka byte ditambah dengan zero, bila kurang maka byte akan dibuang
  9. Nilai entropy dihitung menggunakan rumus:  ; xi nilai raw byte dan pProbability (frekuensi blok)
  10. Global feature yang digunakan: length (Panjang sequence entropy); square root; mean; standev; max; max_7, min_0
  11. Malware diekstraksi menjadi 2 fungsi pada saat decopmposisi yaitu father wavelet (scaling function) dan mother wavelet (fungsi wavelet)
  12. Fungsi Wavelett dan fungsi scaling dengan  Haar Wavelett transform menggunakan rumus:

    ;  

  1. Sebelum dekomposisi sinyal serangkaian transformasi fungsi pada mother wavelett dan father wavelett dilakukan.
  2. Pemilihan wavelet dibandingkan fourier karena detail sinyal bisa didapatkan dari berbagai skala prosesing. Hasilnya adalah power dari sebuah sinyal pada beberapa frequency berbeda.
  3. Haar wavelet memproyeksikan sinyal menjadi sebuah set gelombang kotak dengan tinggi, widt dan struktur berbeda.
  4. Menggunakan enropy sequence sebagai sebuah sinyal dan Transformasi Haar Wavelett untuk mengekstrak structure feature
  5. Fungsi transforming dijelaskan pada persamaan berikut:   
  6. Feature dikonversi ke vectore menggunakan model bag-of-words; tahapannya terdiri dari : a) codebook generation dan b) komputasi histogram
  7. Algoritma K-means diimplementasikan untuk menghasilkan cluster center
  8. Kemudian sampel malware dikonvert ke vector dengan codebook
  9. Histogram dari code words digunakan untuk representasi feature lokal dari sequence entropy
  10. Sistem MESRF (malware entropy sequences reflect the family) dikembangkan dengan python 2.7 dengan pywt library dan sklearn library.
  11. Prototipe sistem dijalankan pada sebuah PC dengan Intel ® Core ™ i7-4790 CPU (3,6 GHz) dan 20 GB RAM
  12. Dataset I didapat dari malware research lab yang terdiri 9339 sampel malware dari 25 family, yang diperoleh dari real environment dan diklasifikasikan dengan platform Microsoft security
  13. Dataset II didapat dari Microsoft Malware Classification Challenge (BIG 2015) terdiri dari 10.868 sampel terdiri dari 9 family (Ramnit, Lollopop, Kelihos_ver3, Vundo, Simda, Tracur, Kelihos_ver1, Obfuscator.ACY, GATAK)
  14. Pengukuran menggunakan akurasi, presisi, recall, ROC Curve (Receiver Operating Characteristic Curve) dan AUC (Area Under ROC Curve), F1
  15. Klassifier ditraining menggunakan Random Forest (RF), Multi-layer Perceptron (MLP), k-Nearest Neighbor (KNN), SVM dan DT
  16. Setiap sampel memiliki 263 feature (7 dari global dan 256 feature local)
  17. nilai K dari KNN diset 2, SVM menggunakan linear kernel function, classifier lainnya menggunakan parameter konfigurasi default dari sklearn
  18. Hasil pengujian dibandingkan dengan 4 model yaitu: GIST+KNN, LBP+KNN, GIST+DSIFT+KNN dan VGG16

Main result

  1. KNN memiliki performa terburuk, dengan akurasi 98,5%, sementara akurasi classifier lainnya diatas 99%, SVM menghasilkan performa terbaik 99,82%
  2. SVM mendapatkan nilai F1-score dan AUC terbaik pada saat eksperimen, namun waktu training membutuhkan 7 detik dengan 9000 sampel
  3. RF menghasilkan efisiensi terbaik
  4. Akurasi klasifer yang menggunakan local feature yang diekstrak dengan DWT dan BOW mencapai 99,75%
  5. Penggunaan feature global dan local secara bersamaan menghasilkan akurasi terbaik 99,83%
  6. MESRF menghasilkan performa terbaik daripada 4 model pembanding, dengan waktu yang lebih pendek
  7. Dari sisi akurasi dan efisiensi MESRF juga lebih baik dibandingkan 4 sistem pembanding yaitu 97,88

Limitation:

1.Jumlah family yang diuji terbatas

2. Analisa attribute dari feature penting belum dilakukan

SourceFinder: finding malware sourcecode-Rokon-PaperReview

Paper TitleSourceFinder: Finding malware source-code from ublicly available repositories in Github

Authors: Md Omar Faruk Rokon, Risul Islam, Ahmad Darki, Evangelos E.Papalexakis

Venue: Usenix 23rd International Symposium on Research in attacks, intrusions and defences

URL: https://www.usenix.org/conference/raid2020/presentation/omar

Problem: Untuk memahami malware, peneliti perlu mempelajari source code malware. Bagaimana mencari source code malware dari repositories di internet seperti Github?

Contribution

  1. Mengajukan sistem SourceFinder, sistem untuk mengidentifikasi repository source code malware menggunakan machine learning
  2. Mengumpulkan 97ribu repository terkait malware dari Github, 
  3. Mempelajari pola dan tren repository malware, termasuk property, behaviour temporal dan author centric
  4. Membuat arhive source malware dengan 7504 repository

Method/solution

  1. Repository dikumpulkan melalui API Github dengan keyword malware
  2. Keyword dibagi 3 tipe: a) keyword terkait malware dan security, seperti malware dan virus; b) time malware, seperti ransomware dan keylogger; c) nama popular malware: seperti mirai
  3. Membuat groundtruth dengan 2013 repository
  4. Membuat 3 set keywords: a) Q1 set, hanya mengandung keyword malware; b) Q50 set yang memiliki 50 keywords; c) Q137 set yg memiliki 137 keywords; Q137 adalah superset dari Q50; dan Q50 adalah superset dari Q1
  5. Query dilakukan menggunakan PyGithub, kemudian dilakukan cleaning
  6. Ground truth dilakukan dengan 3 komputer scientist melakukan label 1000 repository secara manual (malicious atau benign). Hasil labelin diberi nama LD137, LD50 dan LD1
  7. Pada tahapan preprocessing dilakukan: a) character level preprocessing; b) word level preprocessing; c) entity level filtering
  8. Setelah preprocessing dilakukan pelabelan repository fields.
  9. Untuk text field representation digunakan Bag of Words dan word embedding
  10. Tahap ketiga adalah selecting the fields
  11. Tahap keempat adalah pemilihan engine ML
  12. Tahap kelima detecting source code repository
  13. Pengujian dilakukan untuk mengetahui tentang: a) repository fields selection; b) field representation; c) feature selection; d) ML algoritma selection; e) efektifitas klasifikasi; f) Identifikasi repo malware; g) identifikasi repo source code malware
  14. Field yang dipilih adalah title, description, topics, readme file, nama file dan nama folder
  15. Field representation menggunakan bag of words mencapai akurasi 86%, sementara word embedding 85%
  16. Pemilihan jumlah kata per field didapatkan top 550 kata

Main result

  1. Pengujian klasifikasi repository malware menghasilkan akurasi 89%, recall 86% dan F1 score 87% dengan 5 field dari repository
  2. Jumlah malware baru pada repository meningkat 3x lipat setiap 4 tahun
  3. Membuat ranking repository yang paling popular berdasarkan jumlah watcher, forks dan stars
  4. 3% penulis malware memiliki follower > 300 
  5. 0,2% penulis malware memiliki lebih dari 7 repository malware
  6. Ada penulis malware yang membuat 336 repository malwre
  7. Berhasil mengidentifikasi 18 penulis malware professional, contohnya 3vilp4wn penulis keylogger
  8. Q1 diperoleh 2775 repositry, Q50 14332 dan Q137 97375
  9. Multinomial Naïve Bayes memperoleh nilai F1-score 87%; dengan presisi 89% dan recal 86%
  10. Deteksi benign class diperoleh presisi 92%, 94% recall dan 93% F1-score.
  11. F1 score pada algoritma lain (Logistic regression, decision tree, random forest, KNN, Linear discriminant analysis dan SVM) dibawah 79%
  12. KNN, LR, dan LDA memperoleh presisi lebih tinggi dengan recall lebih rendah
  13. Setelah dilakukan 10-fold cross validation diperoleh presisi diatas 89% dan recall diatas 77% untuk ketiga dataset
  14. 2% repository memiliki pengaruh kuat denan minimum 100 forks; 78% repository hanya memiliki forks < 2
  15. 2% repository memiliki stars > 250; 75% repository memiliki stars <3
  16. 8 repository memiliki pengaruh tertinggi adalah: ytisf (thezoo), n1nj4sec, Screetsec, malwaredllc, RoganDawes, Visgean, Ramadhan, dana-at-cp
  17. Kategori terbanyak malware adalah keylogger (679 repo)
  18. Windows dan Linux adalah target paling popular (1592 – windows; 1365 – linux)
  19. Hanya ada sedikit MacOs repo (380)
  20. Aktifitas malware sedikit menurun pada tahun 2018
  21. Malware IoT dan iphone mulai muncul tahun 2014
  22. Malware windows dan linux masih dominan, tapi ada tren penurunan. Sementara IoT dan android meningkat
  23. Username unik muncul pada berbagai platform online seperti Offensive community, ethical hacker dan hackthissite
  24. Username penulis malware tercatat memiliki aktifitas hacking 
  25. Repository digunakan penulis malware untuk meningkatkan reputasinya

Limitation:

  1. Hanya melakukan analisa pada github yang diset public, dan memiliki keyword tertebtu
  2. Hanya melakukan analisa pada Github, masih ada platform sharing malware lainnya seperti darkweb

Do & Dont’s of Machine Learning in Computer security-Arp-Paper Review

Paper TitleDo and Don’ts of machine learning in computer security

Authors: Daniel Arp, Erwin Quiring, Feargus Pendlebury, Alexander Warnecke, Fabio Pierazzi, Christian Wressnegger, Lorenzo Cavallaro, Konrad Rieck

Venue: underreviewed; Technical Report: Arxiv:2010.09470, October 2020

URL: https://arxiv.org/abs/2010.09470

Problem: Machine learning mulai banyak digunakan di bidang security. Namun ada beberapa pitfall yang dapat menurunkan performa dan menyebabkan implementasinya tidak sesuai dengan standar task security di mesin learing

Contribution:

  1. Identifikasi 10 pitfall machine learning di security yang mempengaruhi workflow sistem, serta melakukan analisa longitudinal pada 30 paper security yang telah dipublikasikan pada 30 top-tier conference pada 10 tahun terakhir
  2. Melakukan eksperimen analisa impact pitfall tersebut pada 4 domain security berbeda, apakah menimbulkan bias eksperimen, hasil yang membesar, dan menimbulkan misinterpretasi
  3. Memberi rekomendasi dos and don’t bagi peneliti dan praktisi keamanan dalam pengembangan dan penggunaan machine learning di bidang security

Method/solution

  1. Melakukan studi longitudinal, dengan focus pada 6 tahun terakhir, 30 paper yang dipublikasikan pada 4 conference terbaik dibidang security yaitu ACM CCS, IEEE S&P, USENIX Security dan NDSS. 
  2. 6 paper tentang deteksi malware, 4 paper tentang deteksi serangan pada jaringan, 4 paper tentang vulnerability discovery (mencari celah keamanan sistem), 4 paper tentang serangan website pingerprinting, 3 paper tentang abuse social media, 3 paper tentang analisa kode binary, 2 paper tentang atribusi kode, 1 paper masing-masing tentang steganography, online scam, game bots dan ad blocking
  3. Setiap paper di review oleh 2 orang reviewer yang menguji artikel apakah mengandung 10 pitfall machine learning
  4. Reviewer terdiri dari 6 peneliti yang telah memiliki publikasi pada tema machine learning dan security pada minimal 1 conference diatas.
  5. Setelah 2 reviewer selesai mereview 1 paper, mereka mendiskusikan hasil temuannya dengan reviewer ketiga
  6. Pada setiap paper pitfall dikategorikan sebagai, present (ada), not present (tidak ada), unclear from text (tidak jelas), atau does not apply (tidak berlaku)
  7. Pengujian dilakukan pada 4 domain; mobile malware detection (P1,P4,P7), vulnerability discovery (P2,P4,P6); source code authorship attribution (P1,P4) dan network intrusion detection (P6, P9)

Main result

10 pittfall machine learning:

  1. Sampling bias: dataset yang dikumpulkan tidak merepresentasikan distribusi data pada permasalahan security yang sesungguhnya (60%)
  2. Label Inaccuracy: label ground truth pada klasifikasi tidak akurat, tidak stabil, mengandung eror, dan mempengaruhi performansi sistem secara keseluruhan (10%)
  3. Data Snooping: Model melakukan training pada data yang umumnya tidak ada di dunia nyata. (57%)
  4. False Causality: Artifak yang tidak berhubungan dengan permasalahan yang dihadapi, menyebabkan shortcut pattern pada kelas yang berbeda. Sehingga model tidak menyelesaikan task yang diberikan tapi beradaptasi terhadap artifak tersebut (57%)
  5. Bias pemilihan parameter: Parameter akhir dari metode yang digunakan tidak fix pada saat training. Sehingga parameter ini tergantung pada set test (20%)
  6. Inappropriate baseline: Pengujian dilakukan tanpa baseline atau, dengan baseline yang terbatas. Sehingga sulit untuk mengetahui peningkatan dari state-of-the-art (23%)
  7. Inappropriate performance measures: Pengukuran performa yang digunakan tidak memperhatikan Batasan aplikasi, seperti imbalanced data atau kebutuhan untuk tingkat false-positive yang rendah (40%)
  8. Base Rate Fallacy: Imbalance kelas besar diabaikan Ketika melakukan interpretasi pengukuran performa, sehingga menyebabkan overestimasi dari performa (13%)
  9. Lab-only evaluation: Sistem hanya diuji pada laboratorium tanpa memperhatikan Batasan implementasinya di dunia nyata (43%)
  10. Inappropriate threat model: Keamanan machine learning yang dibangun tidak dipertimbangkan, misalnya dengan serangan poisoning dan evasion attack (17%)
    • Inter-rater reliability review berdasarkan Krippendorff’s alpha adalah α = 0.832 dimana α > 0.800 adalah reliably
    • Pitfall yang paling banyak ditemukan adalah Sampling bias (P1) dan data snooping (P3) yang ditemukan pada lebih dari 73% paper
    • Lebih dari 50% paper memiliki pitfall inappropriate threat model (P10), lab-only evaluations (p9) dan inappropriate baselines (p6)
    • Setiap paper setidaknya memiliki 3 pittfalls
    • Pengumpulan dataset masih menjadi masalah
    • Beberapa dataset yang tersedia masih belum sempurna
    • Keberadaan beberapa pitfall masih belum jelas dari paper yang ada dibandingkan pitfall lain. Contohnya biased parameter selection (p5) pada saat tidak ada deskripsi dari hyperparameter atau prosedur tuning diberikan; false causality (p4) ketika tidak ada percobaan untuk menjelaskan pemilihan model dan data snooping (P3) ketika pembagian dataset atau prosedur normalisasi tidak secara eksplisit dijelaskan.
    • Semua pitfall ditemukan pada penelitian, dengan range 23%-90%
    • Hanya 20% paper memiliki bagian discussion
    • Rekomendasi: Mengumpulkan data yang berhubungan tentang security, handling noisy label, explainable learning, calibrating security systems, performance metrics, security baselines, deployment for security, security of deployment.

Limitation:

  1. Hasil review bisa bias, tergantung dari perspektif reviewer
  2. Jumlah paper yang direview terlalu sedikit

Malware trends in Enterprise-Acar-PaperReview

Paper Title: An Analysis of Malware Trends in Enterprise Networks

Authors: Abbas Acar, Long Lu, A.Selcuk Uluagac, Engin Kirda

Venue: International Conference on Information Security -2019

URL: https://link.springer.com/chapter/10.1007/978-3-030-30215-3_18

Problem:

Serangan malware masih menjadi ancaman di internet. Perusahaan dan pengguna internet rumah seringkali mengalami jenis serangan malware yang berberad. Namun belum ada yang melakukan studi tentang bagaimana pola serangan malware pada perusahaan, seperti apa infection vectornya dan bagaimana tren serangannya.

Contribution

  1. Melakukan studi dan analisa serangan malware yang ditujukan pada perusahaan
  2. Sampel dikumpulkan on-site pada dua perusahaan berbeda, tidak hanya attachment email, namun juga file downliat
  3. Mempelajari jenis malware apa saja yang ditujukan pada perusahaan, bagaimana infection vectornya dan apa saja tren serangannya

Method/solution

  1. Mengumpulkan dataset 3,6 juta sampel pada dua perusahaan dari tahun 2017-2018
  2. Memasang sensor pada jaringan di 2 perusahaan
  3. Sampel dianalisa dengan modul analisa behavioural
  4. Mengumpulkan laporan analisa behavioral dan virus total
  5. Analisa yang dilakukan terdiri dari: analisa statistik, analisa threat vector, analisa social engineering, vulnerability analysis, time-series analysis
  6. Sensor dipasang pada computer end-user, memiliki akses pada payload yang tidak dienkripsi. Sensor menangkap trafik yang masuk dan keluar jaringan, trafik didalam jaringan serta aktivitas pengguna di jaringan.
  7. Samples dikirim ke back-end dan dianalisa pada sebuah sandbox yang terisolasi
  8. Persentase malware pada perusahaan A adalah 0,582 yaitu setiap 6 dari seribu file adalah malicious. Pada perusahaan B 1 dari seribu file
  9. Sampel malware dikategorikan menjadi 35 subjenis (contohnya packer, macro, evasion dll)
  10. Dari hasil report sampel diberi nilai seberapa bahayanya sampel tsb. Nilai <30 diberi label benign. Nilai >70 adalah malicious. Nilai antara 30-70 diberi label suspicious
  11. Threshold deteksi pada Virustotal yang digunakan adalah bila 3 antivirus mendeteksi malware maka sampel diberi label malware.

Main result

  1. Dari dataset yang dikumpulkan hanya 2942 file terdeteksi malware
  2. 122 sampel baru, belum pernah dikenal sebelumnya di VirusTotal
  3. 1 dari 2 sampel pada dataset tidak dapat dideteksi oleh antivirus pada virus total
  4. 1 dari 5 sampel malicious adalah baru, tidak ada di virustotal;
  5. Antivirus saja tidak efektif dalam mendeteksi malware baru
  6. Dokumen adalah tipe file yang paling banyak ditemukan pada sampel. Sementara executable dan jar adalah 2 tipe file yang paling banyak ditemukan pada perusahaan
  7. 34% sampel malware diterima dalam format jar dan diberi label sebagai bagian dari kampanye email phising oleh antivirus dan modul dynamic analysis
  8. Hasil analisa social engineering menunjukan 51% dari malicious document adalah terkait data keuangan seperti (purchase order, invoice dll), 23% dokumen bertema organisasional  atau bisnis seperti CV attachment.
  9. Hasil analisa vulnerability menemukan bahwa 80% sampel yang melakukan eksploitasi CVE menggunakan CVE yang baru dirilis pada tahun 2017. Hal ini menunjukan bahwa penyerang mengikuti perkembangan exploit dan lebih banyak menggunakannya daripada exploit lama.
  10. Hasil analisa time-series menunjukan jumlah malware yang diterima pada jam kerja jauh lebih banyak dibandingkan di luar jam kerja, dengan asumsi jam kerja adalah jam 8-17 pada senin – jumat.
  11. Trojan adalah tipe maware yang paling banyak ditemukan, diikuti dengan downloader
  12. Eksploit hanya sedikit ditemukan pada sampel
  13. Penyerang lebih banyak menempelkan malware pada dokumen makro
  14. Perusahaan A secara rata-rata menerima 0,6 sampel malware dan 8ribu sampel benign perhari, Perusahaan B secara rata-rata menerima 7,7 sampel malware dan 1300 sampel benign perhari.
  15. Resiko serangan malware berbeda-beda pada tiap perusahaan.
  16. Keyword yang banyak ditemukan pada malware dokumen adalah resume, PO, order, INV, invoice, payment, document, copu new dan RFQ (request of Quotatio)
  17. Sampel yang melakukan eksploitasi pada sebuah celah keamanan ditemukan pada waktu  2 hari – beberapa bulan setelah celah keamanan tersebut diumumkan, dengan  rata-rata 3 bulan

Limitation:

  1. Dataset tidak memiliki akses terkait infection vector, karena peneliti tidak mendapat informasi email header dan security logs
  2. Data yang diperoleh terbatas hanya pada 2 perusahaan
  3. Hanya focus pada 2 infection vector yaitu email dan file yang diunduh

LSTM malware classification – Kang – Paper Review

Paper Title : Long short-term memory-based Malware classification Method for information Security

Authors: Jungho Kang, Sejun Jang, Shuyu Li, Young-Sik Jeong, Yunsick Sung

Venue: Elsevier Computers & electrical engineering, Vol 77, July 2019, pages 366-375

URLhttps://doi.org/10.1016/j.compeleceng.2019.06.014

Problem: 

Deteksi malware signature based yang banyak digunakan saat ini tidak mampu mendeteksi berbagai macam teknik obfuscation malware. Diperlukan pendekatan deteksi malware baru.

Contribution:

  1. Mengajukan metoda deteksi malware menggunakan Word2vec untuk klasifikasi malware. Word2vec dan one-hot encoding telah banyak diimplementasikan pada NLP
  2. Metoda klasifikasi malware baru menggunakan LSTM
  3. Mengajukan metode klasifikasi menggunakan API function dan opcode. Klasifikasi malware tradisional banyak menggunakan opcode atau API function name. Namun memiliki batasan dalam akurasi

Method/solution:

  1. Source assembly degenerate dari malicious file kemudian diekstrak opcode dan nama API function.
  2. Pada fase training, word2vec dan LSTM dilatih untuk melakukan klasifikasi malware ke dalam family
  3. Tahapan training adalah: input, preprocessing dan learning
  4. Pada tahap input, tool disassembly digunakan untuk mengekstrak label source assembly dari label file malicious.
  5. Pada tahap preprocessing, opcode dan nama API function diekstrak dari label source assembly
  6. Model Word2vec mempelajari opcode dan nama API function dengan network word2vec dan terdiri dari sebuah kamus dan matrix embedding.
  7. Opcode dan nama API function yang diekstrak diindeks dengan kamu berbasis vocabulary
  8. Embedding dilakukan dengan melakukan embedding matrix word2vec menggunakan index2vec
  9. Pada tahapan learning, network LSTM dilatih dengan vektor dari opcode dan nama function API dan label2nya
  10. Pada tahapan eksekusi, family dari sebuah malicious file ditentukan dengan mempelajari model word2vec dan network LSTM
  11. Proses preprocessing terdiri dari 8 tahap: 1) ekstrak opcode dan nama API function; 2) model word2vec belajar dari opcode dan api; 3) matrix embedding dan vocabulary degenerated; 4) Vocabulary-based dictionary degenerated dengan sorting; 5) index opcode dan api function dibuat dari dictionary berbasis word2index; 6) Jika opcode dan index function API lebih pendek dari maximum sequence length, ukurannya disamakan dengan zero-padding
  12. Label vector dibuat dengan one-hot encoding
  13. Vektor berbasis index degenerate dengan matrix embedding melalui fungsi index2vec
  14. Panjang vector opcode dan function API adalah 300, weight setiap cell pada hidden layer diinisialisasi dengan 1.
  15. Hidden layer memiliki 128 cell
  16. Output vector dikirim ke layer softmax
  17. Dataset menggunakan Microsoft malware classification challenge berukuran 500GB dan 10,868 malware pada 9 family
  18. Pada setiap malware setiap source assemblu degenerate dengan idapro
  19. 90% dataset digunakan pada training, 10% pada testing

Main result:

  1. Akurasi akhir yang dihasilkan adalah 97,59%
  2. Akurasi awal pada proses training adalah 77,11% dan secara bertahap meningkat menjadi 97,59%
  3. Akurasi sistem 0,5% lebih tinggi dibandingkan sistem pembanding one-hot encoding
  4. Proses konvergen juga lebih cepat 10 menit dibandingkan sistem pembanding
  5. Loss pada metode yang diusulkan adalah 0,73 dan menuru secara gradual menjadi 0,05. Sementara pada sistem pembanding lossnya adalah 1,21 dan konvergen menjadi 0,09. Loss yang didapat 0,04 lebih rendah dibandingkan metode one-hot encoding

Limitation:

  1. Komputasi besar karena menggunakan 2 fitur opcode dan function API
  2. Belum dilakukan klasifikasi malware berdasarkan family
  3. Pengujian hanya dilakukan pada malware Windows (PE)

Neurlux: Dynamic Malware Analysis – Jindal – PaperReview

Paper Title: Neurlux: Dynamic Malware Analysis Without Feature Engineering

Authors: Chani Jindal, Christopher Salls, Hojjat Aghakhani, Keith Long, Christopher Kruegel, Giovanni Vigna

Venue: ACM Annual Computer Security Applications Conference-2019

URL : https://dl.acm.org/doi/abs/10.1145/3359789.3359835

Problem: Pendekatan deteksi malware dengan machine learning masih mengalami kendala pada proses feature extraction. Proses ekstraksi feature membutuhkan waktu yang lama dan sulit untuk mengidentifikasi feature terbaik, karena berbagai macam jenis malware

Contribution

  1. Mengusulkan Neurlux, klasifikasi malware berbasis behavioural report yang dihasilkan oleh sandbox. Dengan cara ini maka tidak diperlukan proses feature engineering. Preprocessing dilaporkan dengan cleaning report menjadi kata-kata tertentu. Model kemudian mempelajari sequence dari kata-kata tersebut untuk membuat prediksi
  2. Membuat dan melakukan pengujian klasifikasi malware pada report analisa dinamis, termasuk metoda baru seperti stacking ensemble pada integrated feature dan model feature count.
  3. Menguji kemampuan generalisasi Neurlux dengan melakukan pengujian terhadap dataset baru dan format laporan baru, contohnya yang dibuat oleh sandbox baru
  4. Melakukan share source dan dataset di github

Method/solution

  1. Mengimplementasikan teknik klasifikasi document dengan word sequence dari NLP
  2. Memanfaatkan hasil report analisa dinamis cuckoo sandbox dengan neural network.
  3. Hasil report termasuk aktifitas network, perubahan registry, file actions dll
  4. Sebagai pembanding digunakan juga hasil report dari sandbox dari perusahaan antivirus, pada penelitian ini dinamakan VendorSandbox
  5. Menggunakan 2 dataset, dari antivirus (VendorDataset) dan EmberDataset
  6. VendorDataset terdiri dari 27.540 sampel windows x86 binary dengan 50% benign dan 50% malware. Sampel teridiri dari 1000 family malware
  7. DatasetEmber merupakan potongan dari dataset standar Ember, terdiri dari 42ribu bniaru windowsx86 dengan 50% benign dan 50% malware
  8. Membandingkan dengan MalDy dari Karbab et.al
  9. Data cleaning dilakukan untuk mengubah format report dalam bentuk dokumen JSON menjadi sequence word. Karekater seperti bracket dihilangkan. Kemudian dokumen diberi token untuk sejumlah kata tertentu, sehingga 10ribu kata yang paling banyak muncul dikonversi menjadi sequence numerik
  10. Data formatting dilakukan dengan konversi kata ke vektor, dengan representasi kata dalam continuous vector space.
  11. Menggunakan word embedding yang bisa ditraining, sehingga kata-kata yang mirip memiliki vektor yang sesuai.
  12. Model menggunakan kombinasi CNN, BiLSTM network dan Attention network. Model diharapkan dapat memahami pattern lexical tersembunyi pada malicious dan benign.
  13. Model terdiri dari sebuah layer CNN dan 2 pasang layer BiLSTM dan attention. Dua pasang BiLSTM dan Attention adalah implementasi dari metode hierarchical attention network
  14. CNN melakukan ekstrak feature local dan deep feature dari text input
  15. LSTM menghasilkan representasi high-level dari bidirectional LSTM menggunakan hidden unit dari forward dan backward LSTM. LSTM dapat menemukan temporal relationship dari feature
  16. Input adalah trainable word embedding dengan dimensi 256
  17. Bagian berbeda dari report memiliki importance yang berbeda dalam menentukan malicious behavior dari sampel
  18. Output Neurlux adalah skor 0-1 dimana 0 benign dan 1 adalah malicious
  19. 6 Feature utama adalah: API sequence calls, Mutexes, File system change, Registry changes dan loaded DLL
  20. Proses input generation terdiri dari: Feature selection, data cleaning, data formatting dan model training

Main result

  1. Menghasilkan akurasi 96,8% pada validasi K-fold
  2. Neurlux menghasilkan performa yang lebih baik dibandingkan pendekatan klasifikasi malware yang menggunakan feature engineering
  3. Menghasilkan generalisasi yang lebih baik dibanding metode pembanding
  4. Terdapat perbedaan report dari sampel yang sama dari sandbox yang berbeda. Namun perbedaan hanya pada penamaan feature
  5. Performa pada validation accuracy lebih baik daripada metode pembanding
  6. Teknik NLP pada klasifikasi dokumen berhasil diimplementasikan dengan baik, dan memiliki performa yang lebih baik daripada Neural network raw model
  7. Model dapat mempelajari kombinasi terbaik dari features. Model dapat mengenali operasi file yang dilakukan oleh malware dan API Calls
  8. Neurlux lebih kuat dibandingkan model yang diuji, dengan akurasi yang lebih tinggi pada pengujian dengan dataset dan format report yang berbeda. Sementara model raw bytes memiliki performa tidak baik pada klasifikasi di dataset dan format report berbeda.

Limitation:

  1. Hanya melakukan klasifikasi setelah proses analisa dinamis
  2. Membutuhkan data training besar dan akurat.
  3. Hanya diuji pada malware windows

Note

Model pembanding MalDY menggunakan NLP untuk memproses report sanbdbox. Teknik ini menggunakan model BOW (Bag of words) dan Common N-grams (CNG).

Multiclass malware classification via texture statistics-Verma

Paper Title: Multiclass malware classification via first- and second-order texture statistics

Authors: Vinita Verma, Sunil K.Muttoo, V.B.Singh

Venue: Journal Computers & security Elsevier vol 97, oct 2020, 101895

URL: https://doi.org/10.1016/j.cose.2020.101895

Problem: Klasifikasi malware saat ini tidak efisien, terutama menghadapi imbalanced class. Perlu pendekatan baru

Contribution:

  1. Mengajukan sistem klasifikasi dengan analisa tekstur binary pada grayscale dengan kombinasi first-order dan grey-level co-occurrence matrix (GLCM) based second-order statistical textyre feature dari representasi visual malware

 

Method/solution

  1. Menggunakan esemble learning
  2. Pengujian menggunakan dataset Malimg
  3. Kode biner malware dibaca menjadi 8 bit integer disusun menjadi matrix dan diubah menjadi greyscale
  4. Lebar gambar fixed dan tingginya berbeda tergantung ukuran file
  5. Analisa texture biner menggunakan histogram equalization untuk mendapatkan distribusi level grey yang seragam, kemudian diubah menjadi 64×64 pixel
  6. Dilakukan penghitungan statistik first-order dan pembuatan GLCM dari gambar untuk menurunkan second-order texture statistik
  7. Feature statistik yang digunakan untuk mendapatkan teksture first-order adalah: mean, median, standar deviation, skewness, kurtosis, minimum, 10th percentile, maximum, 90th percentile, interquartile range (IQR), Mean Absolute Deviation (MAD), first-order entropy, first-order energy, coefficient of variation (CV), Range, Quartile coefficient of Dispersion (QCD), Variance, Median Absolute Deviation (MedAD) dan Root Mean Square (RMS)
  8. Feature texture menggunakan GLCM (Grey level spatial dependence matrix)
  9. GLCM dihitung dengan 3 parameter (jumlah grey level L dari gambar, distance d dan angular relationship θ antara grey level
  10. GLCM adalah matrix LxL G(i,j)
  11. Binary ditransformasi menjadi greyscale direduksi menjadi 32 level . Kemudian 4 matrix GLC< 32×32 pixel dihitung dengan θ= 0 °, 45 °, 90 °, and 135 °and d = 1
  12. Feature GLCM second order diturunkan dengan menghitung parameter berikut: contrast, Angular second moment (ASM), normalized Inverse Difference Moment (normalized IDM), joint average, sum of squares atau joint variance, joint entropy, joint maximum dan correlation
  13. Dataset 1vmenggunakan Malimg; terdiri dari 9339 sampel malware dari 25 family dengan 80-2949 sampel per family
  14. Label disediakan oleh Microsoft Security essentials
  15. Family malware dibagi menjadi kategori: worm, PWS, Dialer, Rogue, Backdoor, Trojan, dan TDownloader
  16. Parameter yang dihiting adalah precision, recall dan F1 Measure
  17. Dataset terdiri dari sampel malware yang unpacked dan packed
  18. Dataset 2 menggunakan sampel dari 2916 sampel windows virusshare, yang terdiri dari 19 family
  19. Melakukan ekstraksi 35 feature pada dataset 2

Main result

  1. Menghasilkan F1 score dan akurasi lebih tinggi dibandingkan sistem state-of-the art
  2. Menghasilkan efisiensi dan reliability yang lebih baik
  3. Robust terhadap serangan obfuscation (packing, code relocation dan encryption)
  4. Menggunakan ekstraksi feature lebih sedikit,
  5. Tidak memerlukan disassembly maupun code execution, sehingga waktu klasifikasi lebih cepat6%
  6. Precission 98,04%, recall 98,0 dan F1 98,05%
  7. Hasil klasifikasi pada dataset 2, presisi 97,44%, recall 98,12 dan F1 measure 97,75%
  8. Waktu yang dibutuhkan untuk merubah binary malware menjadi image adalah 37 mili detik
  9. Rata-rata waktu klasifikasi adalah 0,01 detik

Limitation:

  1. Terdapat kesalahan klasifikasi pada ransomware
  2. Rentan terhadap serangan evasion dengan embed malware pada binary benign dengan ukuran besar.
  3. Tidak efektif untuk mendeteksi malware baru

Malware Image Siamese Classification-Hsiao-Review Paper

Paper Title: Malware Image Classification Using One-shot Learning with Siamese Network

Authors: Shou-Ching Hsiao, Da-Yu Kao, Zi-Yuan Liu, Raylin Tso

Venue: 23rd International Conference on Knowledge-Based and Intelligent Information & Engineering Systems

URL: https://doi.org/10.1016/j.procs.2019.09.358

Problem: Machine Learning mulai banyak digunakan untuk deteksi dan klasifikasi malware. Namun model machine Learning yang ada membutuhkan sampel malware yang besar. Model yang ada tidak efektif untuk melakukan re-training untuk mengenali sampel malware baru

Contribution:

  1. Mengajukan metode baru untuk mendeteksi variant malware menggunakan klasifikasi image
  2. Mengajukan jaringan siamee untuk mengatasi kekurangan sampel malware baru
  3. Memiliki akurasi tinggi dibandingkan baseline dengan metode one-shot classification
  4. Menguji dataset dengan model deep learning dan menunjukan bahwa model deep learning tidak cocok pada kasus sampel training terbatas

Method/solution

  1. Terdiri dari tiga tahap: pre-processing, training dan testing; Pada tahap pre-processing, sistem mengubah sampel malware menjadi image gray-scale dan mengklasifikasikannya berdasarkan average hash ke dalam family yang sama
  2. Siamese Network melakukan training untuk menilai tingkat kemiripan sampel, akurasi dihitung melalui N-way one shot task
  3. Skor similarity digenerated oleh layer output sigmod yang menentukan family malware
  4. Menggunakan Siamese CNN yang memiliki weight yang sama antara sub-network. Cara ini dapat mengurangi parameter yang perlu di train dan mengurangi masalah overfitting
  5. Setelah proces 2 input image dengan CNN berbeda, sistem membuat 2 feature vectir v(m1) dan v(m2).
  6. Manhattan distance antara v(m1) dan v(m2) akan jadi input fungsi sigmoid
  7. Skor similarity dibuat dalam range [0,1] dengan 0 tidak mirip dan 1 sangat mirip
  8. Malware diconvert ke grayscale pada 8-bit vector dengan range [0,255] dengan 0 hitam dan 1 putih.
  9. Image direscale ke 105×105 pixel, original aspect ratio dipertahankan dan background dipenuhi dengan hitam
  10. Untuk re-sampling, sistem menggunakan bicubic interpolation
  11. Klasifikasi image ke family menggunakan AverageHash (aHash). Ahash adalah perceptual hash yang membuat fingerpring dari gambar input
  12. Image dengan nilai aHash sama akan diberi label sub-type yang sama pada sistem
  13. CNN terdiri dari convolutional layer, pooling layer dan fully connected layer
  14. Sequence convolutional layer menggunakan filter dari ukuran berbeda dan fixed stride one to extract feature maps.
  15. Output setiap convolusi pada 3 layer pertama dimasukan ke fungsi aktivasi ReLU (rectified linear unit) dan operasi max-pooling dengan stride two
  16. Layer final convolusi diikuti dengan sebuah fully-connected layer dengan fungsi aktivasi sigmoid dimana feature map di flattened menjadi sebuah single vector.
  17. Klasifikasi image classification akan memproses melalui susunan layer CNN, dan hasilnya berupa distribusi probabilitas dari semua kelas
  18. Menambahkan sebuah layer tambahan untuk menghitung Manhattan distance L1 distance antara 2 extracted feature vector
  19. Hasilnya diteruskan ke fully connected layer dengan function sigmod dan unit di set menjadi Satu.
  20. Output adalah skor kemiripan malware dengan range [0,1]0
  21. Training Siamese CNN dilakukan dengan mini-batch. Sistem secara random memilih pasangan gambar untuk training tapi menghindari unbalanced number dari pasangan similar dan dissimilar gambar dengan mini batch
  22. Ukuran mini-batch dirandom dari beberapa kelas, sementara pasangan gambar dikontrol dengan setengah ukuran kelas sama den setengah beda kelas
  23. Network menggunakan Adaptive moment estimation optimizer (Adam) untuk mengupdate weight selama iterasi training mini-batch
  24. Proses testing menggunakan M times dari learning task N-way one-shot learning dengan Q times dari prediksi yang benar; Accuracy=(100*Q/M)%
  25. Pada setiap task N-way one-shot learning, sistem memilih anchor image xˆ dari sebuah kelas dan secara random memiliki kelas N untuk membentuk set support
  26. Baseline menggunakan k-NN
  27. Pengujian dilakukan dengan Keras, TensorFlow, matplotlib, numpy, dan scikit-learn, PIL (python imaging library) pada Intel Core i7-8700 HQ CPU @3,2 GHz, 16 GB DDR3 RAM, NVIDIA GeForce GTX 1060M 6GB DDR5 GPU
  28.  

Main result

  1. Menghasilkan performa yang lebih unggul dibandingkan baseline
  2. Hyperparameter network Siamese, mini-batch size=6, Learning rate 0,00006; N-iterations=2000; N-way=1-15 ;N tasks-150
  3. Akurasi 29,56%

 

Limitation:

  1. Nilai akurasi masih rendah
  2. Malware baru nya belum diuji

 

note:

  1. Siamese neural network memiliki performa baik pada one-shot image recognition
  2. ML perlu banyak traning sampel dan long learning period
  3. Essential requerment train waide variety malware samples
  4. New malware model di retrained on whole large dataset
  5. Cost of massive sample collection and periodical re-training too large
  6. One-shot learning adalah training model dengan small set data tp tidak overfitting
  7. siamese networks arsitektur 2 convolutional neural network dengan parameter sama
  8. One-shot image recognition dengan convolutional siamese network mendapat akurasi 92% pada omniglot dataset
  9. binary-to image pertama di 17; pake k-NN dan menghitung euclidean distance 
  10. 16 comparative analysis pake image based texture analysis dynamic 
  11. Agarap dan Pepito [2] pake DL-SVM; CNN-SVM, GRU,SVM dan MLP SVM
  12. one shot learning dari sampel terbatas [5,6] pake framework bayesian, bisa digunakan untuk prediksi future image, Hierarchical bayesian program learning (HBPL) utk decognize handwritten
  13. Memory augmented Neural network (MANN) [23] modif Neural Turing Machine (NTM) dpt learn dr new sampel dan membuat prediksi akurat; eksperimen omniglot, imageNet and one language modeling
  14. Siamese dibuat bromley dan leCun 93 utk solve signature verification written pada tablet pen-input; dua network sama ekstrak feature vector dan mencari similarity dari 2 sampel input. Supervised
  15. Deep-Face system
  16. Ikut [13] to construct Siamese cnn best convolutional architecture