Language Service Azure


Saya lanjutkan catatan dari training AI102 azure. Kali ini tentang language service. Language service dirancang untuk ekstrak informasi dari teks. Ada beberapa fungsi yang disediakan azure, diantaranya: Deteksi bahasa, Ekstraksi kata kunci dari teks, analisa sentimen, named entity recognition, entity linking. Name entity recognition adalah untuk deteksi entity misalnya, orang lokasi, periode waktu, organisasi dll. Entity linking digunakan untuk identifikasi entity tertentu dengan menyediakan link referensi ke artikel wikipedia.

Kita bisa menggunakan language sebagai sebuah resource sendiri, atau bisa menggunakan API language pada resource cognitive service multi service.

API language detection, dapat mengidentifikasi input teks, pada setiap dokumen dan mengidentifikasi bahasa dengan score-nya. Ada 120 bahasa yang dapat dikenali. Kemampuan ini berguna bila kita menyimpan sekumpulan teks yang belum dikenali bahasanya. Selain itu bisa digunakan juga pada chat bot.

Hasil analisa bahasa dapat diparsing juga untuk menentukan bahasa yang digunakan pada dokumen. Hasil responsnya selalu menampilkan skor, yang menunjukan kepastian model (antara 0-1).

Deteksi bahasa dapat dilakukan pada dokumen maupun frase tunggal. Ukuran dokumen harus dibawah 5.120 karakter. Batas ukuran per dokumen dan setiap koleksi dibatasi menjadi 1000 ID. Contoh payload JSON berformat yang yang dimasukan pada request diantaranya: documents, id, text yang akan dianalisa serta bisa memasukan countryHint untuk meningkatkan performa prediksi.

Response JSON nya mengandung bahasa yang diprediksi serta nilai yang mengindikasikan confidence level dari hasil prediksi. 1 berarti sangat yakin. Bila kita memasukan dokumen yang mengandung konten dengan banyak bahasa, maka hasil confidencenya akan berbeda. Umumnya yang ditampilkan adalah bahasa yang memiliki konten terbanyak, tapi dengan nilai positif terendah, menunjukan marginal strength dari asesmen tersebut. Untuk menentukan bahasa terbanyak digunakan analisa statistik.

Kondisi lainnya yang perlu dipertimbangkan adalah apabila ada keraguan pada konten bahasa. Contohnya bila input tidak dapat diparsing oleh analyzer, karena masalah character encoding ketika melakukan konversi teks ke string. Hasilnya bisa saja bahasa tidak dikenali (unknown) sementara nilainya adalah NaN (Not a Number)

Sampai disini dulu, semoga bermanfaat!


Silahkan tuliskan tanggapan, kritik maupun saran