Downstream Task untuk Pengujian – 2


Saya lanjutkan pembahasan paper Self-Supervised Visual Feature Learning with Deep Neural Network: A Survey dari Longlong Jing dan Yingli Tian. Pada tulisan sebelumnya telah dibahas tentang Pretext Task dan Downstream Task. Downstream task yang sudah dibahas adalah segmentasi semantik dan deteiksi obyek. Hari ini kita coba lanjutkan dengan klasifikasi image.

Klasifikasi image adalah task untuk pengenalan kategori obyek pada gambar. Beberapa jaringan yang digunakan untuk task ini adalah AlexNet, VGG, ResNet, GoogLeNet, DenseNet dll. Biasanya setiap gambar hanya memiliki satu label kelas. Walaupun gambar dapat memiliki kelas obyek yang berbeda.

Ketika memilih klasifikasi image sebagai downstream task untuk menguji fitur image yang dipelajari dari metode self-supervised learning, model SSL diteraokan pada setiap gambar untuk mengesktrak fitur. Fitkur ini kemudian digunakan untuk melakukan training sebuah classifier, misalnya Support Vector Machine (SVM). Performa klasifikasi pada data testing kemudian dibandingkan dengan model ssl lainnya.

Human Action Recognition

Human action recognition adalah task untuk identifikasi apa yang sedang dilakukan orang di sebuah video ke dalam kelas yang berisi daftar aksi yang telah ditentukan. Secara umum, video pada dataset yang berisi satu aksi (gerakan). Fitur spatial dan temporal dibutuhkan untuk menyelesaikan task ini.

Pengenalan aksi ini digunakan untuk menguji kualitas fitur video yang dipelajari pada metode SSL. Jaringan dilatih dengan data video tidak berlabel pada saat pretext task. Kemudian di fine tuning pada dataset pengenalan aksi (gerakan) dengan label manual. Performa pengujian kemudian dibandingkan dengan metode SSL lainnya.

Pengujian Kualitatif

Pengujian kualitatif dapat dilakukan juga untuk menguji kualitas fitur SSL. Ada 3 metode, diantaranya: Visualisasi kernel, Visualisasi feature map visualization, dan visualisasi image retrieval visualization.

Kernel Visualization: secara kualitatif melakukan visualisasi kernel dari layer konvolusi pertama dengan pretext task dan membandingkan kernel-kernel daro model supervised. Kesamaan dari kernel-kernel yang dipelajari dengan mdeol supervised dan SSL dibandingkan unutk menunjukan kefektifan dari metode SSL

Feature Map Visualization: Fitur map, divisualisasikan untuk menunjukan attention dari jaringan. Aktivasi yang lebih besar menunjukan network lebih fokus pada bagian tertentu pada gambar. Fitur map biasanya divisualisasikan secara kualitativ dan dibandingkan dengan model supervised

Nearest Neighbor Retrieval: Secara umum, gambar yang terlihat mirip haru harusnya posisinya berdekatan pada feature space. Metode nearest neighbor method digunakan untuk mendapatkan KNN terbaik dari fitur space dari fitur yang telah dipelaajari oleh model SSL.

Sampai disini dulu, besok insyaAllah saya lanjutkan pembahasan tentang dataset. Semoga Bermanfaat!

Papernya bisa dilihat pada link berikut :

https://arxiv.org/abs/1902.06162


Silahkan tuliskan tanggapan, kritik maupun saran