Pretext dan Downstream task


Saya lanjutkan pembahasan paper Self-Supervised Visual Feature Learning with Deep Neural Network : A Survey karya Longlong Jing dan Yingli Tian. Pada tulisan sebelumnya telah dibahas tentang berbagai arsitektur Deep learning. Kali ini kita akan lanjutkan bahasan tentang Pretext dan Downstream Task.

Skema Fitur learning pada metode Self-supervised dapat dilihat pada gambar diatas. ConvNet ditraining untuk meminimalkan eror antara pseudo lapel P dan prediksi O dari ConvNet. Karena pseudo labels digenerate secara otomatis, pelabelan tidak dilakukan manual oleh orang.

Secara umum, sebuah pretext task dirancang untuk diselesaikan oleh ConvNets dan fitur visual akan dipelajari selama proses penyelesaian pretext task ini. Pseudo labels P untuk pretext task dapat digenerate secara otomatis tanpa pelabelan manusia. ConvNet dioptimasi dengan meminimalisir eror antara prediction dari ConvNet O dan pseudo labels P. Setelah training pada pretext task selesai, model ConvNet dapat menangkap visual fitur dari image atau videos.

Untuk mengatasi masalah pelabelan dataset yang besar, pretext task secara umum dirancang untuk diselesaikan oleh networks, sementara pseudo labels pretext task digenerate secara otomatis dari atribut data. Beberapa pretext task yang dirancang untuk self-supervised learning diantaranya foreground object segmentation, image inpainting, clustering, image colorization, temporal order verification, visual audio correspondence verification dll. Pretext task yang efektif memastikan bahwa fitur semantic dapat dipelajari selama proses penyelesaian pretext tasks.

Contohnya untuk image colorization, image colorization adalah sebuah task untuk memberi warna pada gambar grayscale. Untuk membuat gambar berwarna yang realistis, jaringan harus mempelajari stuktur dan konten informasi dari gambar. Pada pretext task ini, data X adalah gambar gray-scale yang dapat digenerate dengan melakukan transformasi linear transformation pada gambar RGB, sementara pseudo label P adalah gambar RGB image. Proses training pasangan Xi dan Pi dapat digenerate secara real time dengan biaya kecil. Self-Supervised learning dengan pretext task juga mengikuti pipeline yang serupa.

Berdasarkan atribut data yang digunakan untuk merancang pretext tasks, pretext task dapat dibagi menjadi 4 kategori: generation-based, context-based, free semantic label-based, dan cross modal-based.

Generation-based : Metode ini mempelajari fitur visual dengan menyelesaikanpretext task yang melibatkan image atau video generation.

  1. Image Generation: Fitur Visual dipelajari melalui proses image generation tasks. Contoh tasknya adalah image colorization, image super resolution , image inpainting, image generation dengan Generative Adversarial Networks (GANs)
  2. Video Generation: Fitur Visual features dengan melakukan task video generation. Metode ini diantaranya video generation dengan GANs dan video prediction

Context-based pretext tasks:  pretext task ini menggunakan fitur konteks dari images atau video seperti context similarity, spatial structure, temporal structure, dll.

  1. Context Similarity: Pretext tasks dirancang berdasarkan context similarity antara image patches. Contoh metode ini diantaranya metode image clustering- based, dan metode graph constraint-base.
  2. Spatial Context Structure: Pretext task digunakan untuk melatih ConvNets berdasarkan hubungan spatial antara image patches. Contohnya image jigsaw puzzle, context prediction, dan geometric transformation recog- nition.
  3. Temporal Context Structure:  Urutan waktu dari video digunakan sebagai supervision signal. ConvNet dilatih untuk melakukan verifikasi apakah input frame sequence berada dalam urutan yang benar atau untuk mengenali urutan dari frame sequence.

Metode Free Semantic Label-based: Tipe pre text tasks ini melatihnetworks untuk menggenerate label sematik secara otomatis. Label digenerate menggunakan hard-code algorithma, atau menggunakan game engine. Contoh pretext tasknya adalah moving object segmentation, contour detection, relative depth prediction dll.

Cross Modal-based Methods: pretext task ini melatih ConvNets untuk melakukan verifikasi apakah dua channel input berbeda adalah berhubungan satu sama lain. Metode ini contohnya Visual-Audio Correspondence Verification, RGB-Flow Correspondence Verification, dan egomotion.

Sampai disini dulu, insyaAllah besok saya lanjutkan pembahasan tentang paper ini. 

Papernya bisa dilihat pada link berikut :

https://arxiv.org/abs/1902.06162

.


Silahkan tuliskan tanggapan, kritik maupun saran