Contrastive SSL – Jaiswal


Saya lagi baca paper Jaiswal dkk dengan judul A survey on Contrastive self-supervised learning. SSL dapat mengurangi biaya labeling dataset besar. SSL dapat menggunakan pseudolabel yang self-defined sebagai supervision dan menggunakan representasi yang dipelajari untuk beberapa task downstream. Khususnya contrastive learning sekarang banyak digunakan untuk vision, nlp dll. Tujuannya adalah untuk mendekatkan embedding versi augmentasi dari sampel yang sama, dan menjauhkan embedding dari sampel yang berbeda.

Sistem komputer vision yang supervised bekerja dengan mempelajari representasi dari gambar dengan mencari pola antara data point dan anotasinya pada dataset yang besar. Penelitian GRAD-CAM mengajukan teknik yang menyediakan penjelasan visual terhadap keputusan sebuah model agar transparan dan explainable.

Supervised learning tidak hanya bergantung pada pelabelan yang mahal, tapi juga menghadapi tantangan seperti generalization error, spurious correlation dan adversarial attack. Metode SSL menggabungkan pendekatan generative dan contrastive, sehingga dapat memanfaatkan data tidak berlabel untuk mempelajari representasinya.

Pendekatan popular untuk berbagai pretext task adalah mempelajari fitur dengan pseudolabel. Task seperti image-inpainting, colorizing grayscale image, jigsaw puzzle, super-resolusion, video fram prediction, audio visual correspondence dll, efektif untuk mempelajari representasi yang baik.

Model generative menjadi semakin popular setelah adanya GAN, yang kemudian diikuti dengan CycleGAN, StyleGAN, PixelRNN, Text2Image, DiscoGAN dll. Namun ada beberapa kendala dalam pendekatan GAN. Training menjadi lebih sulit karena:

  1. non kovergen- parameter model berosilasi secara banyak dan jarang konvergen.
  2. Diskriminator menjadi terlalu berhasil, sehingga jaringan generator gagal menghasilkan gambar fake yang realistis, karena proses learning tidak dapat dilanjutkan.

Selain itu dibutuhkan sinkronisasi yang sesuai antara generator dan diskriminator yang mencegah diskriminator converging dan generator diverging.

Berbeda dengan model generative, contrative learning (CL) adalah pendekatan diskriminatif yang tujuannya adalah mengelompokan sampel serupa, dan menjauhkan sampel berbeda. Dibutuhkan similarity metric untuk mengukur seberapa dekat 2 embedding. Khususnya pada vision, contrastive loss digitung berdasarkan representasi fitur dari gambar yang diekstrak dari sebuah jaringan enkoder. Contohnya sebuah sampel dari dataset training diambil dan sebuah versi yang sudah ditransformasi diambil dengan menggunakan teknik augmantasi data yang sesuai.

Selama training, versi augmentasi dari sampel asli, dianggap sebagai sampel positif, dan sisa sampel dari batch/dataset dianggap sebagai sampel negatif. Kemudian model ditraining sehingga dapat belajar untuk membedakan sampel positif dan sampel negatif. Pembelajaran ini dibantu dengan beberapa task pretext. Sehingga model dapat mempalajari representasi dengan kualitas baik dari sampel, dan kemudian digunakan untuk transfer pengetahuan ini pada downstream task.

Ide ini muncul dari eksperimen Epstein tahun 2016, dimana dia meminta siswa untuk menggambar uang dolar dengan melihat uang dan tanpa melihat. Hasilnya menunjukan bahwa otak kita tidak memerlukan informasi yang lengkap dari sebuah obyek untuk membedakan satu obyek dengan obyek lainnya. Representasi kasar pada sebuah gambar sudah memenuhi.

Beberapa model awal menggabungkan contrastive learning dengan pendekatan klasifikasi instance-level, dan menghasilkan performa yang cukup baik. Namun metode terbaru seperti SwAV, MoCo dan SimCLR dengan pendekatan berbeda, menghasilkan performa yang bersaing dengan metode supervised pada dataset ImageNet. sementara itu PIRL, selfie adalah contoh metode yang efektif menggunakan pretext task, dan meningkatkan performa model. Sampai disini dulu, besok insyaAllah saya sambung lagi, papernya bisa dilihat disini:

https://www.mdpi.com/2227-7080/9/1/2/pdf

Semoga Bermanfaat!


Silahkan tuliskan tanggapan, kritik maupun saran