Big Self-Supervised Models – Chen

Saya lagi baca paper Big Self-Supervised models are strong semi-supervised learners dari Ting Chen dkk. Mereka ini dari tim research Google . Salah satu teknik untuk learning dengan jumlah label sedikit adalah dengan menggunakan pretraining secara unsupervised pada jumlah data tidak berlabel yang banyak, kemudian diikuti dengan fine-tuning secara supervised. Dibandingkan dengan semi-supervised learning metode Self-supervised leabih efektif.

Chen dkk menggunakan jaringan yang besar dan dalam selama pretraining dan fine-tuning. Mereka menemukan semakin sedikit label naja semakin besar manfaat dari penggunaan jaringan yang besar. Setelah fine-tuning, model dapat ditingkatkan dan didistilasi menjadi jaringan yang lebih kecil dengan loss kecil pada akurasi klasifikasi dengan menggunakan input tidak berlabel lagi tapi pada task yang spesifik.

Mereka membagi algoritma usulannya jadi 3 langkah:

Pretraining secara unsupervised dengan model ResNet besar menggunakan SimCLRv2
Fine-tuning secara supervised pada data dengan label yang sedikit
Distilasi pada sampel tidak berlabel untuk meningkatkan performa dan transfer learning pada task tertentu.

Eksperimen yang mereka lakukan menghasilkan akurasi 73,9% pada ImageNet dengan hanya menggunakan data berlabel 1% (<13 gambar berlabel pada setiap kelas) dengan menggunakan ResNet-50. Dengan 10% label, Resnet-50 yang ditrain dengan model ini mencapai akurasi 77,5%

Pendekatan Self-supervised learning telah banyak digunakan pada NLP. Misalnya kita melakukan training pada model bahasa besar pada text, contohnya pada wikipedia, kemudin melakukan fine-tuning model pada data dengan label yang sedikit.

Pendekatan lain pada komputer vision adalah dengan menggunakan data tidak berlabel secara langsung selama supervised learning, sebagai bentuk regularisasi. Pendekatan ini menggunakan data tidak berlabal dalam task spesifik untuk meningkatkan konsistensi label kelas yang diprediksi pada data tidak berlabel diantara model-model yang berbeda, atau antara augmentasi data yang berbeda.

Pada saat preptraining secara slef-supervised, gambar tanpa label digunakan , secara task-agnostic, sehingga representasi tidak dirancang khusus pada klasifikasi task tertentu. Metode ini memerlukan ukuran jaringan yang sangat besar. Menggunakan neural network yang besar dan dalam akan sangat mempengaruhi akurasi.

Setelah pre-training dan fine-tuned, Chen menemukan bahwa hasil prediksi bisa ditingkatkan dan didistillasikan menjadi jaringan2 kecil. Chen menggunakan data tidak berlabel untuk mendorong student network untuk meniru prediksi label teacher network. Distillation menggunakan data tidak berlabel adalah menyerupai pseudo-label pada self training, namun lebih sederhana.

Chen menyimpulkan semakin sedikit label maka diperlukan model yang lebih besar. Model yang lebih besar membutuhkan label yang lebih efision, menghasilkan performa yang lebih baik bila di fine-tuned hanya pada contoh label yang sedikit, walaupun memiliki kemungkinan overfit

Walaupun model besar penting untuk mempelajari representasi visual secara umum, namum kapasitas ekstra tidak diperlukan pada task tertentu. Sehingga dengan penggunaan task spesifik dari data tidak berlabel, performa prediksi dari model dapat ditingkatkan dan dapat ditransfer pada jaringan yang lebih kecil.

Transformasi nonlinear (projection head) sangat penting setelah layer konvoluse digunakan pada SimCLR. Projection head yang lebih dalam tidak hanya meningkatkan kualitas representasi yang diukur dengan evaluasi linear, namun juga meningkatkan performa semi-supervised ketika fine-tuning dari middle layer dari projection head.

SimCLRv2 menghasilkan akurasi 79,8 dengan protokol evaluasi linear. Ketika dilakukan finetuning dengan hanya 1% atau 10% data dan di distilasikan pada arsitektur yang sama, dihcapai akurasi 76,6% atau 80,9%. Dengan distilasi, model bisa ditransfer menjadi jaringan ResNet-50 yang lebih kecil yang menghasilkan akurasi 73,9% – 77,5% hanya menggunakan 1% atau 10% label.

Sampai disini dulu, insyallah besok saya lanjutkan pembahasan paper ini

https://arxiv.org/abs/2006.10029

3 tanggapan untuk “Big Self-Supervised Models – Chen”

basketball stars berkata:

19 Oktober 2022 pukul 17:27

Thanks for taking the time to write this post. It’s very helpful, and the information in it makes it more interesting. thank you very much.

Memuat…

Balas
Panduan Blog berkata:

28 November 2022 pukul 16:40

Sangat menarik, terima kasih banyak sudah berbagi.

Memuat…

Balas
Daniel Oxtav berkata:

13 Desember 2022 pukul 13:46

Wah menambah wawasan dan pengetahuan saya tentang Pendekatan Self-supervised learning nih, terimakasih Pak

Memuat…

Balas

Jul Ismail

Big Self-Supervised Models – Chen

Menyukai ini:

3 tanggapan untuk “Big Self-Supervised Models – Chen”

Silahkan tuliskan tanggapan, kritik maupun saranBatalkan balasan

Big Self-Supervised Models – Chen

Bagikan ini:

Menyukai ini:

3 tanggapan untuk “Big Self-Supervised Models – Chen”

Silahkan tuliskan tanggapan, kritik maupun saranBatalkan balasan