Naive Bayes

Naive Bayes adalah sekumpulan algoritma klasifikasi dalam mesin learning yang menggunakan teori Bayes. Naive Bayes tidak hanya sebuah algoritma, namun sekumpulan algortima yang menggunakan asumsi yang sama. Yaitu nilai semua fitur independen terhadap fitur yang lain. Contoh fiturnya, buah dapat diklasifikasikan sebagai apel bila merah, bulat dan memiliki diameter 7,5 cm. Klasifier naive bayes menganggap ketiga fitur ini (merah, bulat dan dimater 7,5) adalah independen terhadap probabilitas bahwa buah itu adalah apel. Maksudnya tidak ada korelasi atau hubungan antara ketiga fitur tersebut.

Namun sebenernya fitur tidak selalu independen. Karena itulah algoritma ini mendapat nama Naive. Walaupun idenya sederhana, Naive Bayes seringkali menghasilkan performa yang lebih baik daripada algoritma lain yang lebih rumit. Sehingga Naive Bayes saat ini banyak digunakan, contohnya untuk deteksi spam dan klasifikasi dokumen.

Algoritma Naive Bayes dapat digunakan untuk memprediksi sebuah kelas dari sekelompok fitur menggunakan probabilitas. Dalam contoh lain, kita menggunakan Naive Bayes untuk memprediksi apakah buah itu apel, jeruk maupun pisang (kelas) berdasarkan warnanya, bentuknya dll (fitur).

Kelebihan Naive Bayes:

  • Sederhana, mudah untuk dipahami dan dibangun
  • Mudah untuk melakukan training, bahkan dengan dataset kecil
  • Lebih cepat
  • Tidak sensitif terhadap fitur yang tidak relevan

Kelemahan Naive Bayes

  • Mengasumsikan semua fitur independen

Contoh:

Kita punya data 1000 buah. Ada 3 fitur yang bisa digunakan untuk melakukan klasifikasi apakah buah itu pisang, jeruk atau buah lainnya. Fiturnya yaitu, apakah buah itu panjang atau tidak? Manis atau tidak? Kuning atau tidak. Berdasarkan data diketahui:

  • 50% buah adalah pisang
  • 30% buah adalah jeruk
  • 20% adalah buah lainnya

Selain itu diketahui juga:

  • Dari 500 buah pisang, 400 (0,8%) adalah panjang, 350 (0,7) adalah manis dan 450 (0,9) adalah kuning
  • Dari 300 buah jeruk, 0 adalah panjang, 150 (0,5) adalah manis dan 300 (1) adalah kuning
  • Dari sisa 200 buah lain, 100 (0,5) adalah panjang, 150 (0,75) adalah manis dan 50 (0,25) adalah kuning.

Dari data ini, bila kita diberikan sebuah buah, kita dapat memprediksi apakah buah itu pisang, jeruk atau buah lainnya. Bila buah tersebut adalah panjang, manis dan kuning maka kita dapat menghitung probabilitas buah itu sebagai pisang adalah:

P(Pisang|Panjang, Manis, Kuning) = P(Panjang|Pisang). P(Manis|Pisang). P(Kuning|Pisang). P(Pisang) / (P(Panjang) P(Manis). P(Kuning)

= 0,8 * 0,7 * 0,9 * 0,5/ P(Panjang) . P(Manis). P(Kuning)

Probabilitas jeruk adalah P(jeruk|Panjang, Manis, Kuning)= 0

Probabilitas buah lain adalah: P(Buah lain|Panjang, Manis, Kuning) = P(Panjang|Buah lain).P(Manis|Buah lain).P(Kuning|Buah lain).P(Buah lain)/P(Panjang).P(Manis).P(Kuning)= 0,5 *0,75*0,25*0,2/P(Panjang).P(Manis.P(kuning)= 0,01875/P(Panjang).P(Manis).P(Kuning)

Dari hasil perhitungan terlihat Probabilitas pisang lebih besar yaitu 0,252> 0,01875. Sampai disini dulu, Semoga Bermanfaat!

Referensi:

https://www.datasciencecentral.com/profiles/blogs/naive-bayes-for-dummies-a-simple-explanation

https://monkeylearn.com/blog/practical-explanation-naive-bayes-classifier/

https://en.wikipedia.org/wiki/Naive_Bayes_classifier

Silahkan tuliskan tanggapan, kritik maupun saran