Metode Self Supervised


Ada pandangan untuk menempatkan SSL dalam Framework terpadu model berbasis energi (energy-based model/EBM). EBM adalah sistem yang dapat dilatih dengan 2 input x dan y, dapat memberitahukan seberapa tidak cocok (kompatibel) keduanya. Contohnya x dapat berupa video klip pendek dan y adalah video klip yang diusulkan. Mesin dapat memberitahukan sejauh mana y adalah kelanjutan dari x. Untuk menentukan ketidakcocokan antara x dan y, mesin membuat sebuah parameter yang disebut energi. Bila energinya rendah, x dan y dianggap cocok, bila tinggi maka dianggap tidak cocok.

Melakukan training EBM dibagi menjadi 2 tahap:

1) Menampilkan contoh x dan y yang cocok dan melakukan training untuk menghasilkan energi yang rendah.

2) Mencari sebuah cara untuk memastikan bahwa pada sebuah nilai x tertentu, nilai tidak cocok dengan x dan menghasilkan energi yang tinggi dibandingkan nilai y yang cocok dengan x.

Bagian pertama adalah mudah, tapi bagian kedua lebih sulit.

Untuk image recognition, model kita mengambil dua gambar, x dan y sebagai input. Jika x dan y merupakan versi yang berbeda dari sebuah gambar yang sama, model dilatih untuk menghasilkan output dengan energi rendah. Contohnya x adalah gambar sebuah mobil dan y adalah foto dari mobil yang sama yang diambil dari lokasi yang sedikit berbeda pada waktu yang berbeda, sehingga gambar mobil di y bergeser, berputar, membesar, mengecil dan menampilkan warna serta bayangan yang berbeda dari mobil pada x.

Pada gambar diatas terlihat model berbasis energi (EBM) mengukur kesesuaian antara pengamatan x dan prediksi yang diusulkan y. Jika x dan y kompatibel, energinya kecil; jika mereka tidak kompatibel, energi adalah jumlah yang lebih besar.

Joint Embedding, Siamese Network

Arsitektur deep learning yang cocok untuk membandingkan dua input adalah siamese network atau arsitektur joint embedding. Idenya berasal dari paper Geoff Hinton’s lab dan Yann LeCun’s pada tahun1990s (disini dan disini) dan pertengahan tahun 2000s (disinidisini, dan disini). Arsitektur ini sempat diabaikan pada rentang waktu cukup lama, namun mulai banyak digunakan sejak tahun 2019.

Arsitektur joint embedding terdiri dari 2 jaringan yang identik. Sebuah jaringan diberi input x dan jaringan lain diberi intput y. Jaringan menghasilkan vektor output yang disebut embedding, yang merepresentasikan x dan y. Modul ketiga, bergabung dengan jaringan di awal (kepala) menghitung energi sebagai jarak antara dua vektor embedding. Ketika model ditunjukan versi lain (terdistorsi) dari sebuah gambar yang sama, parameter dari jaringan disesuaikan sehingga outputnya bergerak semakin mendekat. Hal ini untuk memastikan bahwa jaringan akan menghasilkan representasi yang identik (embedding) dari sebuah obyek, terlepas dari view tertentu dari obyek.

Kesulitannya adalah memastikan bahwa jaringan menghasilkan energi tinggi, contohnya vektor embedding berbeda, ketika x dan y adalalah gambar yang berbeda. Tanpa cara khusus untuk melakukannya, kedua jaringan dapat mengabaikan inputnya dan selalu menghasilkan output embedding yang identik. Fenomena ini disebut sebuah collapse. Ketika collapse terjadi, energi tidak lebihbesar daripada x dan y yang tidak sesuai (matching) daripada x dan y yang matching. ada 2 kategori teknik untuk menghindari collapse: contrastive method dan metode regularisasi.

Arsitektur Joint embedding. Fungsi C yang paling atas menghasilkan energi skalar yang mengukur jarak vektor representasi (embedding) yang dihasilkan daru dua jaringan identical twin yang memiliki parameter w yang sama. Ketika x dan y adalah versi yang sedikit berbeda dari gambar yang sama, sistem di train untuk menghasilkan sebuah energi yang rendah, yang memaksa model untuk menghasilkan vektor embeeding yang serupa untuk kedua gambar. Bagian tersulit adalah melatih model agar menghasilkan energi tinggi (contohnya embedding berbeda) untuk gambar yang berbeda.

Sampai disini dulu, pada tulisan berikutnya akan saya lanjutkan tentang metoda contrastive energy-based ssl. Semoga bermanfaat!


Silahkan tuliskan tanggapan, kritik maupun saran