Bootsrap your own latent-Grill-PaperReview


Paper Title:Bootstrap Your Own Latent; A new approach to self-supervised learning

Authors: Jean Bastian Grill, Florian Strub, Florent Altche, Corentin Tallec, Pierre H.Richemond, Elena Buchatskaya, Carl Doersch, Bernardo Avila Pires, Zhaohan Daniel Guo, Mohammed Gheshlaghi Azar, Bilal Piot, Koray Kavukcuoglu, Remi Munos, Michal Valko

Venue: Advances in Neural Information Processing Systems 33 (NeurIPS 2020)

URL: https://arxiv.org/pdf/2006.07733

Problem:

Mendapatkan image representasi yang baik adalah sebuah tantangan dalam computer vision. Banyak pendekatan training telah diajukan untuk mengatasi tantangan ini diantaranya mengandalkan pada visual pretext task, seperti metoda contrastive dengan melakukan traning dengan mengurangi distance antara representasi dari augmented views yang berbeda dari gambar yang sama (positive pair) dan meningkatkan distance antara representasi dari augmented view dari gambar berbeda (negative pair).

Namun metode ini membutuhkan treatment khusus untuk negative pairs dan performansinya tergantung pada pemilihan image augmentation

Contribution:

  1. Mengenalkan BYOL, metode SSL (self-supervised Learning) baru
  2. BYOL menghasilkan performa lebih baik dibandingkan state-of-the-art semi-supervised dan transfer benchmarks
  3. BYOL lebih kuat terhadap perubahan batch size pada set augmentasi gambar dibandingkan pendekatan contrastive

Method/solution

  1. BYOL menggunakan 2 neural network: online dan target
  2. Online network ditentukan dengan sebuah set weight θ dan dibagi menjadi tiga tahapan: sebuah encoder fθ , projector g0 dan predictor q0
  3. Target network memiliki arsitektur yang sama dengan online network, tapi memiliki weight yang berbeda
  4. Target network menyediakan target regresi untuk train online network, dan parameternya secara exponensial mengubah rata-rata dari parameter 0
  5. Dari sebuah set image D, image x->D disampling dari D, dan 2 distribusi dari augmentasi image T dan T‘
  6. BYOL menghasilkan dua augmented view v dan v’
  7. Dari augmented view pertama v, online network menghasilkan representasi y0 dan proyeksi z0
  8. Target network menghasilkan y’ dan target proyeksi z’ dari augmented view v’
  9. Kemudian dihasilkan output prediksi q0 dari z’ dan l2 normalisasi q0 dan z’
  10. Prediktor ini hanya diterapkan pada online branch, sehingga arsitektur asimetrik antara online dan target
  11. Pada setiap training step, dilakukan optimasi stokastik untuk minimasi L0
  12. Pada setiap akhir training kita hanya menyimpan f0
  13. Dibandingkan metode lain, diperhitungkan juga jumlah inference time weight hanya pada representasi akhir f0
  14. Pengujian dilakukan dengan dataset ILSVRC-2012
  15. Benchmark adalah semi-supervised pada ImageNet
  16. Diukur transfer capability dari dataset dan task lain, termasuk klasifikasi, segmentasi, deteksi objek dan estimasi depth

Main result

  1. BYOL mencapai performansi lebih baik dibandingkan metode state-of-the-art contrastive method tanpa negative pairs
  2. Pada pengujian linear evaluasi pada ImageNet BYOL mencapai akurasi top-1 74,3%
  3. Mengurangi gap dengan supervised baseline 78,9%
  4. Pada arsitektur yang lebih dalam dan lebih lebar, menghasilkan performa 79,6% (top-1) akurasi. Lebih baik dibandingkan state-of-the-art self-supervised
  5. Pada ResNet-50 BYOL mencapai akurasi 78,5% hamper menyerupai supervised baseline 78,9% pada arsitektur yang sama
  6. Mengginakan protocol semi-supervised dengan 1% dan 10% dataset ImageNet dihasilkan akurasi top-1 77,5% setelah fine-tuning diperoleh 100%
  7. Pengujian transfer ke task classification lain, BYOL menghasilkan performa lebih baik dibandingkan SimCLR pada semua benchmark dan Supervised-IN pada 7 dari 12 benchmark
  8. Representasi BYOL bisa ditransfer ke small images seperti COFAR, landscape (SUN397) , VOC 2007 dan teksture (DTD)
  9. Transfer ke task lain pada vision seperti semantic segmentasi, object detection dan depth estimasi, BYOL lebih baik dibandingkan baseline

Limitation:

  1. Fokus pada vision, belum diuji pada audio, video, text dl
  2. membutuhkan kemampuan dan resource besar untuk proses augmentasi untuk implementasi pada modal lainnya

Silahkan tuliskan tanggapan, kritik maupun saran