Expectation Maximization untuk Klasifikasi Dokumen


Pada tulisan sebelumnya telah dibahas tentang teknik Expectation Maximization. Pada tulisan ini dibahas tentang penggunaan teknik Expectation maximization untuk klasifikasi dokumen. Contohnya dari penelitian Nigam et.al tahun 2000.

Sebagai input adalah sekumpulan dokumen teks yang memiliki label (Dl) namun ada juga dokumen yang tidak memiliki label (Du). Kemudian dibangun klasifier Bayes dari dokumen yang memiliki label. Digunakan estimasi MAP untuk menghitung theta dari nilai yang ada labelnya.

Dari nilai theta digunakan estimasi dan maksimisasi menggunakan EM. Dicoba estimasi data yang tidak ada labelnya, kemudian dilakukan maksimisasi parameternya. Kemudian sistem digunakan untuk melakukan klasifikasi terhadap data yang tidak memiliki label dan diprediksi kelas labelnya.

Data yang digunakan adalah postingan pada:

  • newsgroup yaitu ada 20 newsgroup, dengan 100 grup
  • Klasifikasi halaman web, ada 4199 halaman web dengan kelas student, faculty, course dan project
  • Artikel berita reuters: ada 12.902 artikel dengan 90 kategori topik

Contoh daftar kata-kata untuk diprediksi kelas pada dataset WebKB untuk klasifikasi web pada iterasi 0, pertama dan kedua adalah:

Hasil akurasi klasifikasi newsgroup berdasarkan jumlah dokumen yang diberi label adalah:

Pada gambar diatas terlihat ada semakin banyak data yang dipake, akurasinya meningkat. Namun dengan EM terlihat akurasinya pada data yang sedikit pun sudah terlihat lebih baik dibandingkan naive bayes yang tidak memiliki dokumen yang tidak memiliki label. Namun pada jumlah label data tertentu terlihat nilainya konvergen (sekitar 5000 dokumen). Sementara itu untuk percobaan yang divariasikan jumlah dokumen yang tidak memiliki label adalah:

Terlihat semakin banyak unlabeled dokumen, akurasinya meningkat. Terlihat pada jumlah label data 40, peningkatan akurasinya cukup signifikan. Sementara itu pada jumlah label yang banyak tidak terlihat signifikan peningkatannya. Sampai disini dulu, selanjutnya akan dibahas tentang struktur graph dari bayesian network yang tidak lengkap. Semoga Bermanfaat!

Referensi:

Mitchell, Tom. “Machine learning.” (1997): 870-877.


Silahkan tuliskan tanggapan, kritik maupun saran