Framework contrastive learning – chen -paper review

Paper Title: A Simple Framework for Contrastive Learning of Visual Representation

Authors: Ting Chen, Simon Kornblith, Mohammad Norouzi, Geoffrey Hinton

Venue: Proceedings of the 37 th International Conference on Machine Learning, Vienna, Austria, PMLR 119, 2020

URL : http://proceedings.mlr.press/v119/chen20j/chen20j.pdf

Problem: Mempelajari representasi visual tanpa supervise orang adalah sebuah tantangan. Sistem self-supervised yang ada masih menghasilkan performa yang lebih rendah dibandingkan dengan supervised learning. Diperlukan pendekatan baru untuk meningkatkan performa metode self-supervised

Contribution

Menyederhanakan algoritma SSL, sehingga tidak memerlukan arsitektur khusus atau sebuah memory bank
Menunjukan bahwa komposisi dari augmentasi data berperan penting dalam menentukan prediction task yang efektif
Mengusulkan transofmasi nonlinear learnable dan contrastive loss akan meningkatkan kualitas dari representasi
Contrastive learning lebih efektif pada ukuran batch yang lebih besar dan step training yang lebih banyak dibandingkan supervised

Method/solution

Memiliki 4 komponen utama: modul data augmentasi stochastic, neural network base encoder f(.) ; proyeksi neural network head kecil g(.) dan contrastive loss function
Module data augmentasi stochastic melakukan transformasi data example secara random, menghasilkan 2 corelated view dari contoh yang sama xi dan xj, yang dinamakan positive pair
Menggunakan 3 augmentasi: random cropping, diikuti dengan resize back ke ukuran original; random color distortions, dan random Gaussian blur
Jaringan neural network base encoder mengekstrak vector representasi dari augmented data example
Menggunakan ResNet untuk mendapat hi=f(xi)=ResNet(xi) adalah output dari average pooling layer
Small neural network projection head memetakan representasi ke space dimana contrastive loss diterapkan
Sebuah MLP digunakan 1 hidden layer untuk mencapai zi=g(hi)=W (2)σ(W (1)hi
Contrastive loss function digunakan untuk sebuah contrastive prediction task
Model tidak ditrain dengan sebuah memory bank, namun mengubah-ubah ukuran training batch N dari 256 ke 8192
Untuk men stabilkan training digunakan LARS optimizer untuk semua batch sizes
Model ditrain dengan Cloud TPU, dengan 32-128 core
Dataset menggunakan ImageNet ILSVRC-2012 untuk unsupervised pretraining.
Pengujian representasi menggunakan protocol linear evaluation dan dibandingkan dengan metode state-of-the-art di semi-supervised dan transfer learning
Untuk augmentasi data digunakan random crop dan resize, color distortion dan gaussian blur
Menggunakan ResNet-50 sebagai base encoder network dan proyeksi MLP 2-layer head
Melakukan crop image secara random dan resize ke resolusi yang sama
Membandingkan NT-Xent loss terhadap fungsi loss contrastive lain seperti logistic loss dan margin loss
Untuk membandingan dengan state-of-the-art dilakukan pengujian dengan ResNet-50 pada 3 hidden layer width yang berbeda, dan ditrain dengan 1000 epoch
Membandingkan dengan semi-supervised mengginakan ILSVRC-12 dilakukan training dengan 1%-10% dataset yang class-balanced
Menguji transfer learning pada 12 dataset natural imate pada linear evaluation dan fine-tuning. Dilakukan hyperparameter tuning pada setiap kombinasi model-dataset

Main result:

Menghasilkan performa lebih baik dibandingkan metoda state-of-the-art dari SSL dan semi-supervised learning pada ImageNet
SimCLR mencapai akurasi 76,5% top-1, peningkatan 7% daripada state-of-the-art dan menyamai performa supervised ResNet-50
Setelah fine-tuning pada 1% label akurasi mencapai 85,8% top-5, mengalahkan AlexNet dengan 100x label lebih sedikit
Augmentasi warna yang lebih kuat meningkatkan linear evaluation pada unsupervised model
Meningkatkan depth dan width meningkatkan performa
Proyeksi nonlinear lebih baik 3% daripada proyeksi linear dan lebih baik >10% daripada no projection. Hidden layer sebelum projection head adalah representasi yang lebih baik dibandingkan layer sesudahnya
Tanpa normalisasi dan skaling temperatur, performa menurun. Tanpa normalisasi l2, akurasi contrastive task lebih tinggi, namun representasi lebih buruk dibawah linear evaluation
Bila jumlah training epoch kecil (100 epoch) ukuran batch size yang lebih besar memberi keunggulan dibandingkan ukuran yang lebih kecil. Dengan training step/epoch lebih banyak, gap antara batch size yang berbeda menurun atau menghilang
Berbeda dengan supervised learning, pada contrastive learning, semakin besar batch sizes menghasilkan lebih banyak negative example, menyebabkan convergence. Training lebih lama juga menghasilkan negative example yang lebih banyak
Dibandingkan state-of-the-art, sistem usulan dapat menggunakan network standar untuk hasil yang lebih baik, dibandingkan metode sebelumnya yang memerlukan arsitektur yang didesain khusus
Hasil terbaik dengan Resnet-50 (4x) dapat menyamai supervised pretrained ResNet-50
Fine-tuning model pretrained ResNet-50 pada full ImageNet lebih baik 2% dibandingkan training dari awal
Setelah fine-tuned model self-supervised menghasilkan performa lebih baik dibandingkan baseline supervised pada 2 jenis (contoh pets dan flower)

Limitation:

Membutuhkan komputasi yang besar

Note:

Pendekatan utk representasi visual tanpa supervise manusia dapat dibagi 2: generative atau discriminative
Generative belajar untuk generate atau model pixel pada input space (Hinton.et.al 2006, Kingma & Welling 2013, GoodFellow et.al 2014)
Namun pixel-level generation membutuhkan komputasi besar, dan bisa saja tidak dibutuhkan pada representation learning
Pendekatan diskriminativ mempelajari representasi menggunakan objective function seperti yang digunakan pada supervised learning, tapi melakukan train network untuk melakukan pretext task dimana input dan label diturunkan dari dataset unlabeld. Penekatan ini banyak menggunakan heuristics untuk merancang pretext task (Doersch, 2015; Zhang, 2016, Noroozi & Favaro, 2016; Gidaris, 2018). Pendekatan ini dapat membatasi generalitas dari representasi
Pendekatan Discriminative berdasarkan contrastive learning pada latent space telah menunjukan hasil yang menjajikan, dan hasil state-of-the-art (Hadsell, 2006; Dosovitskiy, 2014; Oord, 2018; Bachman, 2019)
Unsupervised contrastive learning mendapatkan manfaat dari stronger data augmentasi daripada supervised learning
Representasi learning dengan contrastive cross entropy loss mendapatkan hasil lebih baik daripada normalized embeddings dan menyesuaikan parameter temperature
Model Network base encoder mengijinkan beberapa pilihan dari arsitektur jaringan tanpa hambatan

Jul Ismail

Framework contrastive learning – chen -paper review

Menyukai ini:

Silahkan tuliskan tanggapan, kritik maupun saranBatalkan balasan

Framework contrastive learning – chen -paper review

Bagikan ini:

Menyukai ini:

Silahkan tuliskan tanggapan, kritik maupun saranBatalkan balasan