Analisa Sentimen


Hari ini ada siswa yang mau ngambil judul PA tentang Analisa sentimen alias sentiment analysis. Jadinya saya musti baca2 lagi paper tentang tema ini. Setelah browsing2, nemu satu paper menarik dari David Zimbra dkk dari Santa Clara University judulnya “The State-of-the-Art in Twitter Sentiment Analysis: A Review and Benchmark Evaluation”. Jadi dia ngeriview 28 sistem sentimen analysis di twitter yang menggunakan 5 dataset berbeda.

Sosmed ini seringkali digunakan untuk memahami pandangan orang tentang berbagai tema seperti, prediksi fenomena bisnis dan sosial seperti penjualan produk, tren saham, atau hasil pemilu. Caranya pake analisa sentimen.

Analisa sentimen ini metode pengenalan sentimen dari teks. Twitter salah satu sosmed yang sering dipake untuk sentimen analisis. Konon sekarang (2022) udah ada 396 juta pengguna. Cuman ada penelitian yang menyebutkan akurasi metode analisa sentimen di twitter saat ini baru sekitar 70%. Analisa sentimen ini tugasnya melakukan:

  1. klasifikasi polarisasi sentimen (positive, negative, neutral)
  2. Identifikasi target/topik sentiment
  3. Identifikasi pemegang opini
  4. Identifikasi aspek lainnya dari topik, produk maupun organisasi

Analisa sentimen bisa dilakukan pada teks, frase, kalimat maupun dokumen. Teknik yang dilakukan menggunakan kamus (lexicon) istilah terkait opini dengan menggunakan skoring untuk menguji sentimen secara unsupervised. Teknik ini performanya terbatas, karena tidak dapat mempelajari informasi kontekstual, vokabulary baru atau indikator nuanced pada ekspresi sentimen.

Teknik lainnya mengumpulkan teks berdasarkan representasi fitur dan menggunakan algoritma mesin learning untuk menurunkan hubungan antara nilai fitur dan sentimen secara supervised.

Model supervised butuh data training besar dengan label kelas sentimen untuk mengkalibrasi parameter model. Training domain yang khusus membatasi penggunaannya pada area yang lebih besar. Si penulis pake tiga pendekatan dalam ngumpulin paper yaitu analisa sitasi, pencarian keyword dan browsing. Mereka ngumpulin paper dari google scholar, jurnal Information Systems and Computer Science and konferensi tentang analisa sentimen. Contohnya:

  1. jurnal ACM Transactions on Information Systems
  2. IEEE Transactions on Knowledge and Data Engineering
  3. Journal of the American Society for Information Science and Technology
  4. proceedings of the AAAI Conference on Web and Social Media
  5. Association for Computational Linguistics Conference,
  6. ACM Conference on Information and Knowledge Management,
  7. ACM Conference on Web Search and Data Mining,
  8. International Conference on Computational Linguistics,
  9. Conference on Empirical Methods in Natural Language Processing,
  10. International World Wide Web Conference

Taxonomi teknik analisa sentimen di twitter menurut Zimbra:

  1. Propagasi informasi sentimen : untuk identifikasi ekspresi sentimen baru
  2. Ekspansi representasi fitur: menambahkan atau membentuk kombinasi konten tweet
  3. Teknik Preprocessing : Pengurangan, penggantian atau koreksi fitur khas twitter seperti emotikon, hashtags, hyperlinks, user mentions, acronyms, atau slang
  4. Fitur khas twitter: Penggunaan fitur seperti emoticons, hashtags, hyperlinks, acronyms, atau slang
  5. Pengembangan training set
  6. Metode klasifier multiple
  7. Model topik sentimen
  8. Klasifier berbasis stream

Tiga tema besar penelitian di analisa sentimen twitter:

  1. Bahasa twitter, keterbatasan jumlah karakter
  2. Kelas Imbalance; Poor Sentiment Recall
  3. Stream-Based Generation;Temporal Dependency

Ada 28 sistem analisa sentimen twitter yang dibahas zimbra: AiApplied, Anonymous, BPEF, ChatterBox, EWGA, FRFF, FRN, GU-MLT-LT , Intridea , KLUE , LightSIDE, Lymbix, MLAnalyzer, NRC, OpinionFinder, Repustate, RNTN, Semantria, Sentiment140, SentimentAnalyzer, SentiStrength, SVM Baseline, TeamX, Textalytics, TextProcessing, uClassify, ViralHeat, Webis

Sistem tersebut ada yang komersil ada yang akademik. Ada yang sifatnya umum ada yang khusus pada domain tertentu. 5 dataset yang digunakan untuk pengujian adalah Pharma, Retail, Security, Tech, dan Telco.

Pada sistem yang sifatnya umum ChatterBox, Sentiment140, SentiStrength, dan Textalytics menghasilkan performa terbaik. Dengan rata-rata akurasi diatas 66%. Untuk sistem yang spesifik pada domain tertentu yang terbaik adalah Webis, NRC, FRN, FRFF, LightSIDE, dan BPEF, dengan akurasi rata-rata diatas 69%. Bahkan BPEF, NRC, dan Webis memiliki akurasi diatas 71%

Secara umum sistem spesifik domain lebih bagus dibandingkan sistem umum. Sistem spesifik domain lebih dapat mendeteksi polarisasi. Sampai disini dulu. Semoga Bermanfaat!

Papernya bisa dibaca disini:

https://dl.acm.org/doi/pdf/10.1145/3185045


Silahkan tuliskan tanggapan, kritik maupun saran