Occam Razor


Dalam kuliah machine learning ada dibahas tentang Occam Razor principle. Occam razor yang dimaksud adalah prinsip law of parsimony yang disampaikan oleh Sir William of Ockham (1287-1347), yaitu “plurality must never be posited without necessity” . Maksudnya bila ada beberapa hypothesis yang bisa diambil untuk menyelesaikan sebuah masalah (prediksi) yang sama, hipotesis yang lebih sederhana lebih diutamakan. Atau dengan kata lain, “penjelasan yang lebih mudah adalah yang terbaik”.

Dalam konteks decision tree, prinsip ini digunakan untuk mencoba menyederhanakan tree untuk menghindari masalah overfitt. Bila ada beberapa pilihan tree yang menghasikan prediksi yang sama (atau eror klasifikasi yang sama), maka sebaiknya kita memilih tree yang lebih sederhana.

Pertanyaan berikutnya apa yang dimaksud dengan pohon yang sederhana. Tentunya bila kita harus memperhatikan depth dari tree, atau kedalaman tree. Maksudnya lebih banyak cabang dari tree maka lebih kompleks tree tersebut.

Ada 2 pendekatan yang digunakan untuk membuat tree yang lebih sederhana. Yang pertama adalah early stopping, atau berhenti lebih awal. Maksudnya daripada membuat tree yang lebih panjang (dalam) atau lebih banyak cabang, lebih baik berhenti lebih awal untuk menghindari overfitting. Sehingga akan didapatkan tree yang lebih sederhana. Pendekatan ini menyebutkan bahwa kita dapat berhenti bila proses cabang tidak lagi signifikan secara statistik.

Pendekatan lain adalah pruning. Yaitu membangun tree yang dalam kemudian memotong beberapa cabang di bawah seperti beberapa keputusan (decision) yang tidak penting.

Untuk memilih pohon terbaik digunakan juga tiga pendekatan:

  • menghitung performa pada training data
  • menghitung performa pada dataset validasi yang terpisah
  • MDL: melakukan minimalisasi: size (tree) + size (misclassifications(tree))

Semoga bermanfaat!

https://en.wikipedia.org/wiki/Occam’s_razor

http://www.cs.cmu.edu/~tom/10601_sp09/lectures/DTreesAndOverfitting-1-14-2009-ann.pdf


Silahkan tuliskan tanggapan, kritik maupun saran