Supervised Contrastive Learning-Khosla- Paper Review

Paper Title:Supervised Contrastive Learning

Authors: Prannay Khosla, Piotr Teterwak, Chen Wang, Aaron Sarna, Yonglong Tian, Phillip Isola, Aaron Maschinot, Ce Liu, Dilip Krishnan

Venue: 34th Conference on Neural Information Processing Systems (NeurIPS 2020), Vancouver, Canada.

URL: https://arxiv.org/pdf/2004.11362v5.pdf

Problem: Contrastive learning banyak digunakan pada self-supervised learning. Pada prakteknya sebagian besar model tidak bekerja lebih baik pada dataset besar seperti ImageNet, terutama dari sisi cross-entropy loss

Contribution

Mengembangkan pendekatan self-supervised batch contrastive menjadi fully-supervised
Mengajukan sebuah loss untuk supervised learning yang terinspirasi dari self-supervised dengan memanfaatkan informasi label.
Mengajukan ekstensi baru dari contrastive loss function yang menggunakan banyak positive per anchor
Menunjukan bahwa loss dari sistem usulan menghasilkan akurasi top-1 dari beberapa dataset berbeda, dan lebih kuat terhadap korupsi natural
Menunjukan secara analisis bahwa gradient dari loss function usulan mendorodng dari hard positive dan hard negative
Menunjukan secara empiris bahwa loss usulan lebih tidak sensitive daripada cross-entropy pada range hyperparameter

Method/solution

Cluster poin yang masuk pada kelas yang sama, ditarik ke embedding space, dan mendorong cluster sampel dari kelas berbeda
Melakukan analisa 2 versi dari Supervised contrastive (SupCon) loss
Pendekatan supervised contrastive menggunakan soft-nearest neighbour loss, yang ditingkatkan dengan normalisasi embeddings dan mengganti Euclidean distance dengan inner product. Selain itu ditambahkan dengan augmentasi data, sebuah contrastive head disposable dan 2 tahap training (contrastive diikuti dengan cross-entropy) dan mengganti form dari loss function
Embedding ternormalisasi dari kelas yang sama, ditarik mendekat dibandingkan embedding dari kelas berbeda
Mendapat input batch data, kemudian dilakukan augmentasi data 2x untuk mendapat 2 kopi dari batch
Kedua kopi tersebut diforward melalui jaringan encoder untuk mendapatkan embedding normalisasi dengan dimensi 2048
Melalui training, representasi ini dipropagasi melalui sebuah jaringan projeksi yang diabaikan pada waktu inference
Supervised contrastive loss dihitung pada output dari projection network
Untuk menggunakan model training untuk klasifikasi, dilatih sebuah klasifikasi linear dengan cross-entropy loss
Komponen utama dari framework usulan adalah: module augmentasi data; encoder network dan projection network
Pada setiap input x, digenerate 2 random augmentasi x’ masing-masing mewaliki view yang berbeda terhadap data dan terdiri dari beberapa subset informasi pada sampel asli
Encoder network melakukan pemetaan x pada representasi vector r. Kedua sampel yang telah diaugmentasi secara terpisah dimasukan pada sebuah encoder yang sama. Yang menghasilkan sepasang vector representasi. R dinormalisasidengan unit hypershere pada Rde
Jaringan projection memetakan r ke vector z. projeksi yang digunakan adalah multi-layer perceptron dengan sebuah hidden layer dengan ukuran 2048 dan vector output dengan ukuran Dp=128 atau hanya sebuah layer linear single dengan ukuran Dp=128
Kemudian dilakukan normalisasi dari output dari jaringan ini pada unit hypershere, menggunakan inner product untuk mengukur distance dari projection space
Loss yang digunakan memiliki properti: generalisasi pada number positive, contrastive power meningkat dengan banyak negative, memiliki kemampuan untuk melakukan hard positive/negative mining
SupCon loss diuki dengan mengukur akurasi klasifikasi pada beberapa benchmark seperti CIFAR-10 dan CIFAR-100 dan ImageNet
Kemudian model ImageNet dibenchmark juga untuk mengetahui common image corruptions, dan mengetahui perubahan performa dengan perubahan hyperparameter dan pengurangan data
Untuk Encoder network, diuji dengan 3 arsitektur encoder yang umum yaitu ResNet-50, ResNet-101 dan ResNet-200
Final Pooling layer menggunakan normalized activation (De-2048)
Implementasi diuji pada 4 modul data augmentasio: autoAugment; randAugment, SimAugment dan Stacked RandAugment
ResNetMelakukan pengujian alternatif memory based. Dengan ImageNet pada memory size 8192 dengan ukuran storage 128-dimensi vector, ukuran batch-size 256 dan SGD optimizer, pada 8 Nvidia V100 GPUs
Melakukan pengujian cross-entropy ResNet-50 baseline dengan ukuran batchsize 12.288
Menggunakan daaset ImageNet-C untuk benchmark pengukuran performa model pada korupsi natural, dibandingkan dengan mCE (Mean Corruption Error) dan Relative Mean Corruption Error Metric
Menguji stabilitas hyperparameter dengan mengubah augmentasi, optimizer dan learning rate satu persatu dan mencari kombinasi yang terbaik.
Perubahan Augmentasi dilakukan dengan RandAugment, AutoAugment, SimAugment, Stacked Rand Augmet; Perubahan optimizer dengan LARS, SGD with momentum dan RMS props
Mengujia learned representation untuk fine-tuning pada 12 natural image dataset.
Training dilakukan dengan 700 epoch pada pretraining untuk ResNet-200 dan 250 epochs untuk model yang lebih kecil
Melatih model dengan batch size sampai 6144. Untuk ResNet-50 diuji sampai batch size 6144 dan ResNet-200 dengan batch-size 4096
Menggunakan temperature = 0,1

Main result

Pengujian pada ResNet-200 diperoleh akurasi 81,4% (top-1) pada dataset ImageNet. 0,8% lebih baik dari state-of-the-art arsitektur ini
Menghasilkan performa lebih baik pada cross-entropy pada dataset lain dan 2 ResNet Variant.
AutoAugment menghasilkan performa yang terbaik pada ResNet-50 pada SupCon dan cross Entropy dengan akurasi 78,7%
Stacked RandAugment menghasilkan performa terbaik untuk ResNet-200 untuk kedua loss functions
Menghasilkan performa sedikit lebih baik dibandingkan CutMix, yang merupakan state-of-the-art pada strategi data augmentasi
Menghasilkan akurasi 79,1 pada pengujian alternatif memory based dengan ResNet-50.
Akurasi 77,5% pada pengujian cross-entropy ResNet-50
Pada pengujian penambahan training epoch pada cross-entropy sampai 1400, akurasi turun menjadi 77%
Pada pengujian N-Pair loss dengan batchsize 6144 mendapatkan akurasi 57,4% pada ImageNet
Pada pengujian natural corruption model usulan memiliki nilai mCE lebih rendah pada corruption berbeda, menunjukan robustness.
Model usulan menghasilkan degradasi akurasi yang lebih rendah pada peningkatan korupsi
Hasil pengujian stabilitas hyperparameter menunjukan nilainya konstan top-1 akurasi
Sistem usulan memiliki contrastive loss yang setara dengan cross-entropu dan self-supervised pada transfer learning ketika ditrain pada arsitektur yang sama
Pada ResNet50 fungsi akurasi menunjukan 200 epoch sudah mencukupi
Hasil pengujian menunjukan batch size 2048 sudah mencukupi
Performa terbaik untuk ImageNet menggunakan LARS untuk pre-training dan RMSProp untuk training layer linear
Untuk CIFAR1- dan CIFAR 100, SGD menghasilkan performa terbaik

Limitation:

Tidak melakukan training linear classifier Bersama dengan encoder dan projection network
N-Pair loss masih rendah

Note:

Contrastive learning telah menjadi state-of-the-art pada unsupervised training pada model deep image
Pendekatan batch contrastive modern melampaui tradisional contrastive loss seperti triplet, max-margin dan N-pair los
Cross-entropy loss adalah fungsi loss paling banyak digunakan pada supervised dari model deep classification
Perkembangan contrastive learning mendorong perkembangan self-supervised learning
Contrastive learning bekerja dengan menarik sebuah anchor dan sebuah sampel positive ke embedding space dan memisahkan anchor dari sampel negative
Karena tidak ada label tersedia, sebuah pasangan positive terdiri dari augmentasi data dari samepl, dan pasangan negatif dibentuk oleh anchor dan secara random memilih sampel dari minibatch
Koneksi dibuat dari contrastive loss dari maximization dari informasi mutual antara view data-data yang berbeda
Kebaruan teknis adalah dengan mempertimbangkan banyak positive dari anchor sebagai tambahan pada banyak negative; berbeda dengan self-supervised contrastive learning yang hanya menggunakan single positive
Positive diambil dari sampel pada kelas yang sama dengan anchor, tidak dari augmentasi data dari anchor.
Walaupun terlihat sebagai extensi sederhana dari SSL, namun tidak mudah untuk mensetting loss function dengan baik. Ada 2 alternatif yang dipelajari
Loss pada model ini dapat dilihat sebagai sebuah generalisasi dari triplet dan N-Pair los
Triplet hanya menggunakan 1 positif dan 1 negative sampel per anchor
N-Pair menggunakan 1 positive dan banyak negative
Banyak positive dan banyak negative pada setiap anchor menghasilkan performa state-of-the art tanpa perlu mining hard negative, yang susah untuk detuning
Model ini adalah contrastive loss pertama yang menghasilkan performa lebih baik daripada cross entropy pada tugas klasifikasi besar
Metode ini menghasilkan sebuah loss function yang dapat digunakan pada self-supervised atau supervised
SupCon mudah diimplementasi dan stabil untuk di training
Naive extension menghasilkan performa lebih buruk dibandingkan sistem usulan
Cross-entropy loss adalah powerfull loss function untuk train deep network; setiap kelas diassigned sebuah target (biasanya 1-hot) vector. Namun tidak jelas kenapa target label tersebut adalah yang optimal, dan banyak penelitian telah mencoba mengidentifikasi target label vector yang lebih baik
Kekurangan cross entropy loss diantaranya sensitivitas label noisy, adanya adversarial examples dan poor margin
Loss alternativ telah diajukan, tapi yang terbaik adalah mengubah reference label distribution seperti label smoothing, data augmentasi seperti mixup dan cutmix dan knowledge distillation
SSL berbasis model deep learning banyak digunakan pada natural language.
Pada domain image, pendekatan pixel prediksi digunakan untuk belajar embedding.
Metode ini digunakan untuk memprediksi bagian yang hilang dari sinyal input.
Pendekatan yang lebih efektif adalah mengganti sebuah desne per-pixel predictive loss, dengan sebuah loss di lower dimensional representation space.
State-of-the-art family model untuk SSL menggunakan paradigma yang dibawah istilah contrastive learning
Loss pada penelitian tersebut terinspirasi oleh noise contrastive estimation atau N-pair loss
Loss diterapkan pada layer terakhir dari sebuah deep network
Pada pengujian embedding dari layer sebelumnya digunakan untuk downstream transfer task, fine tuning atau direct retrieval task.
Terkait dengan contrastive learning adalah family dari loss berbasis metric distance learning atau triplets
Loss tersebut banyak digunakan utk supervised, dimana label digunakan untuk memandu pemilihan positive dan negative pairs
Yang membedakan triplet loss dan contrastive loss adalah jumlah pasangan positive dan negative pada setiap data poin
Triplet loss menggunakan 1 positive dan 1 pasangan negative per anchor.
Pada setingan supervised metric, hamper selalu dibutuhkan hard-negative mining untuk performa yang baik
SSL contrastive loss hanya menggunakan 1 positive pair utk setiap anchor sampel, memilih antara co-occurrence atau data augmentation
Perbedaannya adalah banyak negative pair digunakan untuk setiap anchor. Yang dipilih secara random menggunakan weak knowledge seperti patches dari gambar lain atau frame dari video random lainnya. Dengan asumsi bahwa pendekatan ini menghasiklan probability false negative paling rendah
Loss formulation yang dekat dengan usulan adalah entangle representasi pada intermediate layer dengan melakukan maximize loss
Metoda yang paling mirip adalah Compact clustering via label propagation (CCLP) regularizer
CCLP focus pada semi-supervised, pada fully supervised regularizer mengurangi hamper sama dengan loss formulation usulan
Perbedaannya adalah normalisasi yang diusulkan adalah dengan embedding ke unit sphere, tuning parameter temperatur dan augmentasi yang lebih kuat
Deep Neural network tidak robust terhadap data yang out of distribution atau korupsi natural seperti noise, blur dan kompresi JPEG

Jul Ismail

Supervised Contrastive Learning-Khosla- Paper Review

Menyukai ini:

Silahkan tuliskan tanggapan, kritik maupun saranBatalkan balasan

Supervised Contrastive Learning-Khosla- Paper Review

Bagikan ini:

Menyukai ini:

Silahkan tuliskan tanggapan, kritik maupun saranBatalkan balasan