Big Self-Supervised Models – Chen


Saya lagi baca paper Big Self-Supervised models are strong semi-supervised learners dari Ting Chen dkk. Mereka ini dari tim research Google . Salah satu teknik untuk learning dengan jumlah label sedikit adalah dengan menggunakan pretraining secara unsupervised pada jumlah data tidak berlabel yang banyak, kemudian diikuti dengan fine-tuning secara supervised. Dibandingkan dengan semi-supervised learning metode Self-supervised leabih efektif.

Chen dkk menggunakan jaringan yang besar dan dalam selama pretraining dan fine-tuning. Mereka menemukan semakin sedikit label naja semakin besar manfaat dari penggunaan jaringan yang besar. Setelah fine-tuning, model dapat ditingkatkan dan didistilasi menjadi jaringan yang lebih kecil dengan loss kecil pada akurasi klasifikasi dengan menggunakan input tidak berlabel lagi tapi pada task yang spesifik.

Mereka membagi algoritma usulannya jadi 3 langkah:

  1. Pretraining secara unsupervised dengan model ResNet besar menggunakan SimCLRv2
  2. Fine-tuning secara supervised pada data dengan label yang sedikit
  3. Distilasi pada sampel tidak berlabel untuk meningkatkan performa dan transfer learning pada task tertentu.

Eksperimen yang mereka lakukan menghasilkan akurasi 73,9% pada ImageNet dengan hanya menggunakan data berlabel 1% (<13 gambar berlabel pada setiap kelas) dengan menggunakan ResNet-50. Dengan 10% label, Resnet-50 yang ditrain dengan model ini mencapai akurasi 77,5%

Pendekatan Self-supervised learning telah banyak digunakan pada NLP. Misalnya kita melakukan training pada model bahasa besar pada text, contohnya pada wikipedia, kemudin melakukan fine-tuning model pada data dengan label yang sedikit.

Pendekatan lain pada komputer vision adalah dengan menggunakan data tidak berlabel secara langsung selama supervised learning, sebagai bentuk regularisasi. Pendekatan ini menggunakan data tidak berlabal dalam task spesifik untuk meningkatkan konsistensi label kelas yang diprediksi pada data tidak berlabel diantara model-model yang berbeda, atau antara augmentasi data yang berbeda.

Pada saat preptraining secara slef-supervised, gambar tanpa label digunakan , secara task-agnostic, sehingga representasi tidak dirancang khusus pada klasifikasi task tertentu. Metode ini memerlukan ukuran jaringan yang sangat besar. Menggunakan neural network yang besar dan dalam akan sangat mempengaruhi akurasi.

Setelah pre-training dan fine-tuned, Chen menemukan bahwa hasil prediksi bisa ditingkatkan dan didistillasikan menjadi jaringan2 kecil. Chen menggunakan data tidak berlabel untuk mendorong student network untuk meniru prediksi label teacher network. Distillation menggunakan data tidak berlabel adalah menyerupai pseudo-label pada self training, namun lebih sederhana.

Chen menyimpulkan semakin sedikit label maka diperlukan model yang lebih besar. Model yang lebih besar membutuhkan label yang lebih efision, menghasilkan performa yang lebih baik bila di fine-tuned hanya pada contoh label yang sedikit, walaupun memiliki kemungkinan overfit

Walaupun model besar penting untuk mempelajari representasi visual secara umum, namum kapasitas ekstra tidak diperlukan pada task tertentu. Sehingga dengan penggunaan task spesifik dari data tidak berlabel, performa prediksi dari model dapat ditingkatkan dan dapat ditransfer pada jaringan yang lebih kecil.

Transformasi nonlinear (projection head) sangat penting setelah layer konvoluse digunakan pada SimCLR. Projection head yang lebih dalam tidak hanya meningkatkan kualitas representasi yang diukur dengan evaluasi linear, namun juga meningkatkan performa semi-supervised ketika fine-tuning dari middle layer dari projection head.

SimCLRv2 menghasilkan akurasi 79,8 dengan protokol evaluasi linear. Ketika dilakukan finetuning dengan hanya 1% atau 10% data dan di distilasikan pada arsitektur yang sama, dihcapai akurasi 76,6% atau 80,9%. Dengan distilasi, model bisa ditransfer menjadi jaringan ResNet-50 yang lebih kecil yang menghasilkan akurasi 73,9% – 77,5% hanya menggunakan 1% atau 10% label.

Sampai disini dulu, insyallah besok saya lanjutkan pembahasan paper ini

https://arxiv.org/abs/2006.10029


3 tanggapan untuk “Big Self-Supervised Models – Chen”

Silahkan tuliskan tanggapan, kritik maupun saran