Perbandingan Performa Metode Self-Supervised


Mari kita lanjutkan pembahasan tentang paper Self-Supervised Visual Feature Learning with Deep Neural Network: A Survey dari Longlong Jing dan Yingli Tian. Pada tulisan sebelumnya telah dibahas tentang macam-macam teknik learning feature pada image, diantaranya dengan metode Free Semantic Label Feature Learning. Sekarang kita lanjutkan tentang perbandingan performa berbagai metode feature learning pada gambar dengan self-supervised.

Perbandingan performa dilakukan dengan finetuning pada downstream task seperti klasifikasi gambar, segmentasi semantik dan deteksi obyek. Pengujian dilakukan pada dataset ImageNet dan Places. Selama pretext task training, sebagian besar metode ditraining pada dataset ImageNet dengan AlexNet tanpa label. Kemudian setelah training, linear classifier ditraining pada beberapa layer konvolusi berbeda yang di freeze. Performa klasifikasi pada dua dataset diatas, menunjukan kualitas fitur yang berhasil dipelajari.

dari paper Jing & Tian

Dari tabel diatas, secara keseluruhan performa model self-supervised lebih rendah dibandingkan dengan model yang ditrain dengan label ImageNet atau Places. DeepCluster menghasilkan performa terbaik. Beberapa kesimpulan dari hasil pengujian tersebut:

  1. Fitur dari layer berbeda mendapatkan keuntungan dari training pretext task. Semua metode self-supervised menghasilkan performa lebih baik dibandingkan model yang ditraining dengan random scratch.
  2. Semua metode self-supervised menghasilkan performa lebih baik pada layer conv3 dan conv4. Namun performanya lebih buruk pada layer conv1, conv2 dan conv5. Hal ini karena layer awal menangkap fitur low-level, sementara deep layer menangkap fitur terkait pretext task
  3. Ketika terjadi gap antara dataset untuk training pretext task dan downstream task, self-supervised menghasilkan performa mendekati model berlabel.

Selain klasifikasi gambar, deteksi obyek dan segmentasi semantik digunakan juga pada pengujian downstream task. ImageNet digunakan pada pretext-task self supervised tanpa label. AlexNet digunakan dan difinetuning pada 3 task tersebut. Tabel berikut menunjukan performa 3 task pada dataset PASCAL VOC. Performa klasifikasi dan deteksi didapat dengan menguji model pada dataset tes PASCAL VOC 2007 dataset. Performa segmentasi semantik diuji pada dataset validasi PASCAL VOC 2012 dataset.

dari paper Jing & Tian

Performa pada segmentasi dan deteksi mendekati metode supervised. Metode supervised ditraining dengan label ImageNet pada saat pre-training. Perbedaan performa pada deteksi obyek dan segmentasi semantik kurang dari 3%. Hal ini menunjukan fitur yang dipelajari memiliki kemampuan generalisasi yang baik. DeepClustering menghasilkan performa yang paling baik diantara metode self-supervised yang diuji.

Dapat disimpulkan performa metoda self-supervised dapat dibandingkan dengan metode supervised pada downstream task tertentu, seperti deteksi obyek den segmentasi semantik. Metode self-supervised yang diuji umumnya menggunakan jaringan AlexNet. Kode yang digunakan juga umumnya di open source sehingga mudah untuk di reka ulang.

Pengukuran untuk menguji kualitas fitur yang dipelajari umumnya dengan menguji performa downstream task. Namun cara ini tidak dapat memberi gambaran tentang kualitas pre-training dengan self-supervised. Metode pengukuran network dissection perlu dicoba untuk analisa ini.

Sampai disini dulu, besok insyaAllah saya lanjutkan dengan bagian penutup dari paper ini.

Papernya bisa dilihat pada link berikut :

https://arxiv.org/abs/1902.06162

Semoga Bermanfaat!


Silahkan tuliskan tanggapan, kritik maupun saran