Kelebihan metode SwAV – Ishan Misra


Saya lanjutkan pembahasan kuliah SSL oleh Ishan Misra. Pada kuliah sebelumnya telah dibahas tentang performa SwAV. Hari ini kita lanjutkan dengan pembahas tentang kelebihan metoda SwAV.

Keuntungan pertama Swav adalah lebih cepat konvergence dibandingkan metoda contrastive learning seperti SimCLR dan MoCov. Pada SwAV, penghitungan similarity dilakukan pada code space, tidak dilakukan perbandingan embedding secara langsung. Karena code space selalu berubah , sehingga bisa konverge lebih cepat. Pada contrastive learning semua perhitungan terjadi pada embedding space, sehingga diperlukan jumlah sampel yang besar untuk konverge. Akibatnya proses konvergennya jadi lebih lama.

Keuntungan lainnya lebih mudah ditraining dengan jumlah GPU yang lebih kecil.

Selanjutnya, Ishan membahas tentang pengujian performa metoda contrastive dan clustering dengan dataset ImageNet yang labelnya dihilangkan. ImageNet adalah dataset yang memiliki banyak gambar. Menurut Ishan, menggunakan data ImageNet tanpa label seperti kita mengambil gambar berikut ini.

Ada banyak gambar disana, walaupun tidak ada labelnya tapi kita bisa lihat ada semacam susunan disana. Kita bisa lihat di bagian atas ada banyak gambar mobil, di bagian kiri ada gambar roda, kiri atas ada gambar kaca spion, kemudian ada kumpulan gambar pesawat, ada juga sekumpulan gambar pemandangan dll.

Ini yang disebut Ishan bahwa gambar-gambar tersebut dipilih dan diatur (curated). Atau bisa dikatakan walaupun gambar tersebut tidak memiliki label, gambar-gambar tersebut kita pilih dengan pola tertentu.

  • Semua gambar dikelompokan ke dalam 1000 kelas
  • Semua gambar memiliki sebuah gambar yang mudah dikenali
  • Ketidakaturannya kecil

Sehingga ada bias pada gambar ImageNet yang mempengaruhi hasil dari self-supervised learning. Penjelasan tentang tema ini dibahas pada paper berikut:

Demystifying Contrastive Self-Supervised Learning: Invariances, Augmentations and Dataset Biases – Purushwalkam et al., 2020

Ketika kita melakukan pretraining dengan data yang tidak ada pada ImageNet maka performanya akan sangat jelek, contohnya pada gambar berikut:

Gambar diatas tidak related dengan gambar2 pada imagenet, karena bentuknya full-scene (sebuah pemandangan yang ada banyak objek), sementara gambar di imagenet biasanya fokus hanya pada satu obyek. Kemudian apa yang terjadi kalo gambarnya kita potong2 seperti dibawah ini:

Pada contrastive learning atau clustering, yang kita inginkan adalah embedding dari 4 potongan gambar diatas menjadi sama. Sehingga contohnya embedding dari gambar kulkas, akan memiliki nilai yang dekat dengan embedding kursi. Ini bukanlah yang kita inginkan, karena kita ingin embedding dari kulkas berbeda dengan embedding kursi.

Paper ini menunjukan bahwa dataset memiliki perbedaan dengan data pada realworld (data sebenarnya).

  1. Data sebenarnya memiliki distribusi yang berbeda, contohnya ada gambar kartun, gambar meme dll
  2. Gambar tidak selalu memiliki sebuah prominent object. Kadang tidak ada prominen object atau tidak memiliki objek sama sekali.

Sehingga gambar aslinya memiliki properti yang berbeda dengan dataset. Sampai disini dulu, insyaAllah besok akan saya lanjutkan dengan pembahasan hasil pengujian dengan imageNet. Semoga Bermanfaat!

Kode dan model bisa dilihat di :

https://github.com/facebookresearch/swav

Materi kuliahnya:

https://atcold.github.io/NYU-DLSP21/en/week10/10-1/

slidenya ada disini:

https://drive.google.com/file/d/1BQlWMVesOcioW69RCKWCjp6280Q42W9q/edit

Videonya:


Satu tanggapan untuk “Kelebihan metode SwAV – Ishan Misra”

Silahkan tuliskan tanggapan, kritik maupun saran