Framework contrastive learning – chen -paper review

Paper Title: A Simple Framework for Contrastive Learning of Visual Representation

AuthorsTing Chen, Simon Kornblith, Mohammad Norouzi, Geoffrey Hinton

VenueProceedings of the 37 th International Conference on Machine Learning, Vienna, Austria, PMLR 119, 2020

URL : http://proceedings.mlr.press/v119/chen20j/chen20j.pdf

Problem: Mempelajari representasi visual tanpa supervise orang adalah sebuah tantangan. Sistem  self-supervised yang ada masih menghasilkan performa yang lebih rendah dibandingkan dengan supervised learning. Diperlukan pendekatan baru untuk meningkatkan performa metode self-supervised

Contribution

  1. Menyederhanakan algoritma SSL, sehingga tidak memerlukan arsitektur khusus atau sebuah memory bank
  2. Menunjukan bahwa komposisi dari augmentasi data berperan penting dalam menentukan prediction task yang efektif
  3. Mengusulkan transofmasi nonlinear learnable dan contrastive loss akan meningkatkan kualitas dari representasi
  4. Contrastive learning lebih efektif pada ukuran batch yang lebih besar dan step training yang lebih banyak dibandingkan supervised

Method/solution

  1. Memiliki 4 komponen utama: modul data augmentasi stochastic, neural network base encoder f(.) ; proyeksi neural network head kecil g(.) dan contrastive loss function
  2. Module data augmentasi stochastic melakukan transformasi data example secara random, menghasilkan 2 corelated view dari contoh yang sama xi dan xj, yang dinamakan positive pair
  3. Menggunakan 3 augmentasi: random cropping, diikuti dengan resize back ke ukuran original; random color distortions, dan random Gaussian blur
  4. Jaringan neural network base encoder mengekstrak vector representasi dari augmented data example
  5. Menggunakan ResNet untuk mendapat hi=f(xi)=ResNet(xi) adalah output dari average pooling layer
  6. Small neural network projection head memetakan representasi ke space dimana contrastive loss diterapkan
  7. Sebuah MLP digunakan 1 hidden layer untuk mencapai zi=g(hi)=W (2)σ(W (1)hi  
  8. Contrastive loss function digunakan untuk sebuah contrastive prediction task
  9. Model tidak ditrain dengan sebuah memory bank, namun mengubah-ubah ukuran training batch N dari 256 ke 8192
  10. Untuk men stabilkan training digunakan LARS optimizer untuk semua batch sizes
  11. Model ditrain dengan Cloud TPU, dengan 32-128 core
  12. Dataset menggunakan ImageNet ILSVRC-2012 untuk unsupervised pretraining. 
  13. Pengujian representasi menggunakan protocol linear evaluation dan dibandingkan dengan metode state-of-the-art di semi-supervised dan transfer learning
  14. Untuk augmentasi data digunakan random crop dan resize, color distortion dan gaussian blur
  15. Menggunakan ResNet-50 sebagai base encoder network dan proyeksi MLP 2-layer head
  16. Melakukan crop image secara random dan resize ke resolusi yang sama 
  17. Membandingkan NT-Xent loss terhadap fungsi loss contrastive lain seperti logistic loss dan margin loss
  18. Untuk membandingan dengan state-of-the-art dilakukan pengujian dengan ResNet-50 pada 3 hidden layer width yang berbeda, dan ditrain dengan 1000 epoch
  19. Membandingkan dengan semi-supervised mengginakan ILSVRC-12 dilakukan training dengan 1%-10% dataset yang class-balanced
  20. Menguji transfer learning pada 12 dataset natural imate pada linear evaluation dan fine-tuning. Dilakukan hyperparameter tuning pada setiap kombinasi model-dataset

Main result:

  1. Menghasilkan performa lebih baik dibandingkan metoda state-of-the-art dari SSL dan semi-supervised learning pada ImageNet
  2. SimCLR mencapai akurasi 76,5% top-1, peningkatan 7% daripada state-of-the-art dan menyamai performa supervised ResNet-50
  3. Setelah fine-tuning pada 1% label akurasi mencapai 85,8% top-5, mengalahkan AlexNet dengan 100x label lebih sedikit
  4. Augmentasi warna yang lebih kuat meningkatkan linear evaluation pada unsupervised model
  5. Meningkatkan depth dan width meningkatkan performa
  6. Proyeksi nonlinear lebih baik 3% daripada proyeksi linear dan lebih baik >10% daripada no projection. Hidden layer sebelum projection head adalah representasi yang lebih baik dibandingkan layer sesudahnya
  7. Tanpa normalisasi dan skaling temperatur, performa menurun. Tanpa normalisasi l2, akurasi contrastive task lebih tinggi, namun representasi lebih buruk dibawah linear evaluation
  8. Bila jumlah training epoch kecil (100 epoch) ukuran batch size yang lebih besar memberi keunggulan dibandingkan ukuran yang lebih kecil. Dengan training step/epoch lebih banyak, gap antara batch size yang berbeda menurun atau menghilang
  9. Berbeda dengan supervised learning, pada contrastive learning, semakin besar batch sizes menghasilkan lebih banyak negative example, menyebabkan convergence. Training lebih lama juga menghasilkan negative example yang lebih banyak
  10. Dibandingkan state-of-the-art, sistem usulan dapat menggunakan network standar untuk hasil yang lebih baik, dibandingkan metode sebelumnya yang memerlukan arsitektur yang didesain khusus
  11. Hasil terbaik dengan Resnet-50 (4x) dapat menyamai supervised pretrained ResNet-50
  12. Fine-tuning model pretrained ResNet-50 pada full ImageNet lebih baik 2% dibandingkan training dari awal
  13. Setelah fine-tuned model self-supervised menghasilkan performa lebih baik dibandingkan baseline supervised pada 2 jenis (contoh pets dan flower)

Limitation:

  1. Membutuhkan komputasi yang besar

Note:

  1. Pendekatan utk representasi visual tanpa supervise manusia dapat dibagi 2: generative atau discriminative
  2. Generative belajar untuk generate atau model pixel pada input space (Hinton.et.al 2006, Kingma & Welling 2013, GoodFellow et.al 2014)
  3. Namun pixel-level generation membutuhkan komputasi besar, dan bisa saja tidak dibutuhkan pada representation learning
  4. Pendekatan diskriminativ mempelajari representasi menggunakan objective function seperti yang digunakan pada supervised learning, tapi melakukan train network untuk melakukan pretext task dimana input dan label diturunkan dari dataset unlabeld. Penekatan ini banyak menggunakan heuristics untuk merancang pretext task (Doersch, 2015; Zhang, 2016, Noroozi & Favaro, 2016; Gidaris, 2018). Pendekatan ini dapat membatasi generalitas dari representasi
  5. Pendekatan Discriminative berdasarkan contrastive learning pada latent space telah menunjukan hasil yang menjajikan, dan hasil state-of-the-art (Hadsell, 2006; Dosovitskiy, 2014; Oord, 2018; Bachman, 2019)
  6. Unsupervised contrastive learning mendapatkan manfaat dari stronger data augmentasi daripada supervised learning
  7. Representasi learning dengan contrastive cross entropy loss mendapatkan hasil lebih baik daripada normalized embeddings dan menyesuaikan parameter temperature
  8. Model Network base encoder mengijinkan beberapa pilihan dari arsitektur jaringan tanpa hambatan

Silahkan tuliskan tanggapan, kritik maupun saran