Self-supervised visual learning- Kolesnikov-review paper


Paper Title: Revisiting self-supervised visual representation learning

Authors: Alexander Kolesnikov, Xiaohua Zhai, Lucas Beyer

Venue:2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) 

URL: https://ieeexplore.ieee.org/document/8953672

Problem: Computer vision masih banyak bergantung pada supervised learning. Namun proses labeling data menjadi kendala pada supervised learning. Sehingga peneliti masih bergantung pada dataset yang tersedia saja. Untuk itu diperlukan baru dalam proses learning. Teknik yang cukup prospektif adalah self-supervised learning (SSL). SSL menerima unlabel data yang kemudian diformulasikan menjadi sebuah pretext learning task seperti prediksi konteks dan rotasi gambar. Namun Pretext task ini harus dirancang agar bisa memahami gambar input dengan benar. Paper ini melakukan studi tentang teknik apa saja yang dapat digunakan untuk meningkatkan performa SSL.

Contribution:

  1. Melakukan studi tentang teknik pretext task pada arsitektur CNN untuk meningkatkan performa SSL
  2. Melakukan studi empiris berbagai arsitektur SSL 

Method/solution:

  1. Model CNN menggunakan ResNet, Revnet dan VGG
  2. Teknik Self-supervised yang digunakan adalah rotation, exemplar, jogsaw, relative patch location
  3. Visual representasi dievaluasi dengan melakukan training pada sebuah model regresi logistik linear untuk menyelesaikan masalah klasifikasi image yang membutuhkan pemahaman high-level scene. Task ini disebut downstream task.
  4. Untuk mempercepat evaluasi digunakan teknik optimasi efficient convex untuk training model logistik regression menggunakan L-BFGS
  5. Dataset yang digunakan ImageNet dan Places205

Main result:

  1. Sifat arsitektur pada supervised tidak otomatis terbawa ketika diterjemahkan ke self-supervised learning. 
  2. Kualitas representasi yang dipelajari pada arsitektur CNN dengan skip-connections tidak menurun mendekati akhir model. Hal ini kontras dengan pengamatan pada arsitektur Alexnet.
  3. Meningkatkan jumlah filter pada sebuah model CNN dan menambah ukuran representasi secara signifikan dan konsisten meningkatkan kualitas dari representasi visual yang dipelajari
  4. Prosedur evaluasi dimana sebuah model linear di train pada sebuah representasi fixed-visual menggunakan stochastic gradient descent sensitive terhadap learning rate schedule dan membutuhkan banyak epoch untuk mendapatkan hasil.

Limitation:

  1. Hanya melakukan studi pada representasi image
  2. Tidak melakukan pengujian pada BERT
  3. Tidak melakukan pengujian dengan GAN

SSL adalah learning framework dimana sebuah supervised signal pada sebuah pretext task dibuat secara otomatis, dalam rangka untuk learn representations  yang berguna dalam menyelesaikan task. 

Banyak penelitian SSL yang menggunakan arsitektur AlexNet. Pada paper ini dilakukan studi implementasi varian ResNet dan arsitektur sebuah batch-normalized VGG. Semuanya menghasilkan performa tinggi pada training fully-supervised. VGG secara struktur dekat dengan AlexNet karena tidak memiliki skip-connections dan menggunkan layer yang fully-connected.

Pada pengujian awal, diamati properti dari ResNet model: kualitas representasi tidak menurun mendekati akhir network. Hipotesa penulis adalah ini akubat dari skip-connection membuat residual unit tidak bisa diinvert pada keadaan tertentu, sehingga menyebabkan penyimpanan informasi pada depth walaupun tidak relevan untuk pretext task. Berdasarkan hipotesis ini dimasukan RevNets pada studi ini karena memiliki stronger invertibility namun secara struktur mirip dengan ResNets


Silahkan tuliskan tanggapan, kritik maupun saran