Klasifikasi – Supervised Learning

Saya lanjutkan catatan dari Buku Murphy tentang machine learning. Kali ini ngebahas tentang Supervised Learning. Supervised Learning adalah teknik machine learning yang paling populer. Dengan Supervised learning kita dapat melakukan klasifikasi. Tujuan klasifikasi adalah untuk mengklasifikasikan input X ke output Y. Kalo output Y cuman ada 2, maka kita sebut metode ini klasifikasi biner. Contohnya untuk klasifikasi email apakah spam atau tidak. Tapi kalo Y > 2 maka kita sebut klasifikasi multi kelas, atau klasifikasi multinomial.

Kalau label kelas tidak mutually exclusive, misalnya seseorang dapat dimasukan ke kelas tinggi dan kuat, maka task ini dapat disebut klasifikasi multi-label. Atau bisa juga dilihat sebagai multiple binary class (multiple output model). Secara matematis formula untuk klasifikasi dapat dinyatakan sebagai y=f(x) untuk fungsi f yang tidak diketahui. Tujuan learning adalah mencari fungsi f dari dataset training yang memiliki label. Kemudian hasil training digunakan untuk memprediksi output dari sebuah input baru yang belum diketahui. Teknik ini disebut juga generalisasi.

gambar diambil dari buku murphy machine learning a probabilistic perspective hal 3

Contoh klasifikasi pada gambar diatas kita memiliki data sejumlah obyek dengan bentuk warna dan ukuran berbeda-beda, dengan label yes dan no. Ini merupakan data training. Data ini dijelaskan juga pada tabel b dengan sekumpulan fitur D atau atribut. Data ini disimpan dalam matrix X (NxD). Fitur input bisa dalam bentuk data diskrit, kontinu atau kombinasi. Selain itu ada juga label dari vektor training y.

Sementara dibagian bawah kita diminta melakukan klasifikasi untuk 3 obyek baru yaitu gambar bulan sabit biru, lingkaran kuning dan tanda panah biru, yang disebut data tes. Karena ketiga data tes ini tidak ditemukan pada data training, maka kita perlu melakukan generalisasi. Untuk bulan sabit biru kita dapat prediksi dia masuk ke label 1. Karena semua obyek dengan warna biru, memiliki label 1 pada data training.

Sementara untuk lingkaran kuning lebih susah untuk diklasifikasikan, karena beberapa obyek kuning diberi label 1 dan yang lainnya diberi label 0. Selaian itu beberapa lingkaran diberi label 1 dan yang lainnya diberi 0. Begitu juga untuk untuk tanda panah biru.

Untuk mengatasi masalah ini dapat digunakan teori probabilitas. Probabilitis output Y dari input X dan data training D adalah P(y|x,D). Pada kasus ini hanya ada 2 kelas output, sehingga kita cukup hanya penghitung 1 peluang P(y=1|x,D). Karena P(y=1|x,D) + P(Y=0|x,D) = 1

Dari notasi diatas terlihat output Y adalah conditional atau bergantung pada input x dan data training D. Selain itu kita juga bergantung pada model M yang akan digunakan untuk membuat prediksi. Sehingga probabilitasnya dapat ditulis sebagai P(y|x,D,M)

Bila kita mengetahui nilai probabilitas output, kita dapat menghitung hasil “prediksi terbaik” sebagai label sebenarnya dengan persamaan:

dari buku murphy, hal 4

Persamaan ini menunjukan label kelas yang paling mungkin, dan disebut mode distribusi P(y|x,D) atau disebut juga MAP estimate (Maximum a posteriori). Misal dalam kasus bulatan kuning diatas kita memperoleh nilai p(yˆ|x,D) sangat kecil, jauh dari 1. Maka bisa disimpulkan hasil kita kurang meyakinkan, dan lebih aman bila dikatakan saya tidak tahu. Jawaban ini lebih aman bila kita menghadapi permasalahan yang memiliki resiko tinggi seperti di bidang kesehatan atau keuangan.

IBM membuat komputer yang dinamakan watson, yang dapat mengalahkan orang dalam game jeopardy. Watson memiliki modul yang dapat menghitung seberapa yakin jawaban tersebut. Modul ini dinamakan “buzz in”. Google juga memiliki sistem SmartASS (Ad Selection system), yang menghitung probabilitas orang akan mengklik sebuah iklan, berdasarkan riwayat pencarian dan fitur lainnya. Probabilitas ini disebut CTR (Click-through rate).

Sampai disini dulu, besok saya lanjutkan dengan pendekatan probabilitas. Semoga Bermanfaat!

Referensi

Murphy, K. P. (2012). Machine learning: a probabilistic perspective. MIT press.

Silahkan tuliskan tanggapan, kritik maupun saran