Non contrastive energy based ssl

Pada tulisan sebelumnya telah dibahas tentang Self Supervised Learning, energy based model dan metode contrastive. Namun metode contrastive memiliki masalah yaitu tidak efisien untuk training. Pada tulisan ini saya lanjutkan pembahasan tentang non-contrastive energy based SSL.

Metode non-contrastive yang diterapkan pada arsitektur joint embedding saat ini adalah salah satu topik terhangat di SSL untuk komputer vision. Topik riset ini masih belum banyak dibahas, namun sepertinya sangat menjanjikan.

Beberapa contoh metode non-contrastive untuk joint embeeding diantaranya DeeperClusterClusterFitMoCo-v2SwAVSimSiam, Barlow Twins, BYOL dari DeepMind, dll. Mereka menggunakan berbagai macam teknik, seperti menghitung virtual target embedding untuk sekelompok gambar yang mirip (DeeperCluster, SwAV, SimSiam) atau membuat 2 arsitektur joint embedding yang sedikit berbeda pada arsitekturnya atau vektor parameternya (BYOL, Moco). Barlow Twins mencoba untuk melakukan minimisasi redundansi antara komponen individual dari vektor embedding.

Alternativ yang menarik dan belum banyak dicoba adalah membangun metoda non-contrastive dengan model prediksi latent-variable. Tantangan utamanya adalah dibutuhkan cara untuk memperkecil kapasitas dari variabel latent. Volume set dimana variabel laten dapat diubah membatasi volume output yang membutuhkan energi rendah. Dengan mengecilkan volume ini, kita dapat secara otomatis membentuk energi dengan benar.

Sebuah contoh sukses metode ini adalah  Variational Auto-Encoder (VAE), dimana variabel latent dibuat “fuzzy” yang membatasi kapasitasnya. Tapi VAE belum dapat menghasilkan representasi yang baik untuk downstream virtual task. Contoh sukses lainnya adalah sparse modeling, namun penggunaannya terbatas pada arsitektur sederhana. Belum ada sebuah cara yang manjur untuk membatasi kapasitas variabel laten.

Tantangan kedepan adalah untuk membangun metode contrastive untuk model energy based variable latent yang menghasilkan representasi yang baik untuk image, video, speech dan sinyal lainnya dan mencapai performa sangat baik pada tugas supervised downstream tanpa membutuhkan jumlah data dengan label yang besar.

Sampai disini dulu besok insyaallah akan saya lanjutkan dengan model SEER. Semoga bermanfaat!

referensi:

https://ai.facebook.com/blog/self-supervised-learning-the-dark-matter-of-intelligence/

Silahkan tuliskan tanggapan, kritik maupun saran