Model prediksi Latent Variable

Tulisan ini merupakan lanjutan pembahasan tentang SSL. Pada tulisan sebelumnya telah diterangkan tentang kesulitan penerapan SSL pada komputer vision, salah satu ide untuk mengatasi permasalahan tersebut adalah dengan arsitektur prediksi latent-variable.

Model prediksi latent-variable memiliki variabel input tambahan (z). Disebut latent karena nilainya tidak pernah diamati. Dengan model yang terlatih dengan baik, variabel laten bervariasi pada set yang diberikan, prediksi output bervariasi diatas set prediksi yang mungkin dan kompatibel dengan input x.

Model variabel laten dapat dilatih dengan metoda contrastive. Contoh yang baik adalah GAN (generative adversarial network). Kritik (atau diskriminator) dapat dilihat sebagai menghitung sebuah energi yang menunjukan apakah input y terlihat baik. Jaringain generator dilatih untuk menghasilkan contoh contrastiv untuk mengasosiasikan energi tinggi.

Tapi metode contrastive memiliki maslaah besar yaitu: tidak efisien untuk dilatih. Pada ruang dimensi besar seperti gambar, ada banyak cara satu gambar berbeda dengan gambar yang lain. Menemukan satu set gambar contrastive yang mencakup semua cara mereka dapat berbeda adalah mustahil. Mengutip karya Leo Tolstoy Anna Karenina: semua keluarga bahagia adalah sama; namun setiap keluarga yang tidak bahagia memiliki masalahnya sendiri. Hal ini berlaku juga untuk semua obyek dengan dimensi tinggi.

Bagaimana jika mungkin untuk memastikan energi pasangan yang tidak kompatibel lebih tinggi daripada pasangan yang kompatibel, tanpa secara eksplisit mendorong energi dari banyak pasangan yang tidak kompatibel

Pada gambar diatas terlihat contoh arsitektur prediktif variabel laten. Dari pengamatan x, model harus dapat menghasilkan sebuah set beberapa prediksi yang kompatibel, dilambangkan dengan pita berbentuk S pada diagram. Karena variabel laten z dalam satu set bervariasi, dilambangkan dengan sebuah kotak abu-abu, output bervariasi atas set prediksi yang mungkin.

Sampai disini dulu, besok insyaallah saya lanjutkan dengan SSL non-contrastive energy based. Semoga bermanfaat!

referensi:

https://ai.facebook.com/blog/self-supervised-learning-the-dark-matter-of-intelligence/

Silahkan tuliskan tanggapan, kritik maupun saran