Self-Supervised-Doersch-Paper review


Paper Title: Multi-task Self-Supervised Visual Learning

Authors: Carl Doersch, Andrew Zisserman

Venue: 2017 IEEE International Conference on Computer Vision

URL: https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8237488

Problem:Bagaimana melakukan kombinasi dari beberapa self-supervised task berbeda untuk melakukan training pada sebuah representasi visual? 

Apakah kombinasi tersebut menghasilkan performa yang lebih baik dibandingkan training pada satu task?

Contribution:

1. Melakukan implementasi 4 self-supervision task (Relative Positin, Colorization, esemplar task, dan motion segmentation) dan membandingkan performanya dengan 3 jenis pengukuran

2. Melakukan kombinasi taskt untuk training dan menguji performanya

3. Mencari cara mengatasi konflik yang timbul ketika melakukan kombinasi naive dari self-supervision task. 

Method/solution:

1. Membangun arsitektur multi-task network (naive) dengan sebuah common trunk dan  sebuah head (extra layer) pada setiap task. Arsitektur ini menggunakan Resnet-101 v2 pada TensorFlow-Slim. 

2. Menambahkan ekstensi lasso untuk memisahkan feature.

3.Melakukan Harmonisasi input jaringan dengan mengganti preprocessing pada task relative position dengan preprocessing yang sama dengan colorization. 

4. Melakukan distribusi training pada beberapa mesin. Setiap mesin melakukan training pada sebuah task.

5. Gradient dari setiap task disinkronisasi dan dirata2kan dengan RMSProp optimizer.

6. Training dilakukan pada 64 GPU secara paralel dan menyimpan checkpoint setap 2,4K GPU (NVIDIA K40) jam. 

7. Tiga  evaluasi task yang digunakan: klasifikasi gambar, deteksi kategori objek, dan pixel-wise depth prediction. 

Main result:

1. Dibandingkan penelitian sebelumnya, performansi hasil pengujian lebih baik, dikarenakan adanyadepth tapmbanan dari ResNet dan tambahan waktu training. 

2. ImageNet-trained untuk Faster RCNN juga menghasilkan performa lebih baik yaitu 74,2 dibanding 69,9 pada penelitian sebelumnya, karena tambapan augmentasi multi-scale.

3. Pada metoda pre-training self-supervised, relative position dan colorization menghasilkan performa terbaik.

4. Relative position menghasilkan performa lebih baik dibandingkan PASCAL dan NYU

5. Colorization menghasilkan lebih paik dibandingkan ImageNet-frozen.

6. Relative position menghasilkan performa sebanding dengan ImageNet pre-training pada depth prediction, serta hanya menghasilkan gap 7,5% mAP dari PASCAL. 

7. Gap terbesar ada pada ImageNet Evaluation.

8. Exemplar Training memiliki performa yang lebih jelek dibandingkan penelitian PASCAL dan NYU

9. Motion segmentation menghasilkan performa yang lebih jelek dibandingkan ImageNet

10. Harmonisasi dan lasso weighting hanya memberikan efek minimal terhadap performa

11. Kombinasi self-supervised task membuat training lebih cepat. 

Limitation:

  1. Augmentasi hanya digunakan pada exemplar training saja tidak pada semua task.
  2. Self-supervised task yang diuji terbatas
  3. Tidak melakukan pengujian weighting dinamis untuk optimasi task
  4. Tidak melakukan pengujian pada deep network seperti VGG-16

Silahkan tuliskan tanggapan, kritik maupun saran