Image Feature Learning


Saya lanjutkan pembahasan tentang paper Self-Supervised Visual Feature Learning with Deep Neural Network: A Survey dari Longlong Jing dan Yingli Tian. Pada tulisan sebelumnya telah dibahas tentang macam-macam dataset yang bisa digunakan di Downstream Task untuk pengujian model SSL.  Sekarang kita lanjutkan tentang metode feature learning pada image. Di paper dibahas 3 metode feature learning pada image yaitu:

  1. Generation based
  2. Context-based
  3. Free semantic label

Secara umum gambaran metode SSL yang ada dapat dilihat pada tabel berikut:

Generation-based image feature learning

Metode ini memiliki beberapa metode diantaranya menggenerate gambar dengan GAN, super-resolusion (untuk menggenerate gambar dengan resolusi tinggi, image inpainting (untuk prediksi bagian image yang hilang) dan image colorization (memberi warna gambar gray-scale). Untuk task-task ini, label pseudo training P biasanya dari gambar tersebut dan tidak diberi label manual dari orang.

Autoencoder adalah contoh pioner teknik image generationbased. Autoencoder mempelajari untuk mengkompres gambar menjadi vektor dengan dimensi rendah yang kemudian di uncompressed menjadi gambar yang dekat dengan gambar aslinya dengan beberapa layer.

Dengan autoencoder, network dapat mengurangi dimensi dari image, namun tetap memiliki informasi yang sama dengan gambar aslinya. Metode image generation based lainnya mengikuti ide yang sama namun dengan pipeline berbeda. Tujuannya adalah untuk mempelajari fitur visual dari proses image generation.

Ada 4 teknik image generation yaitu:

  1. GAN
  2. Inpainting
  3. Super Resolution
  4. Colorization

Image generation dengan GAN

Generative Adversarial Network (GAN) adalah model deep generative yang diajukan oleh Goodfellow et al. Model GAN umumnya terdiri dari dua jaringan:

  • Sebuah generator yang menggenerate gambar dari latent vectors
  • Sebuah discriminator untuk membedakan apakah gambar input digenerate oleh generator.

Diskriminator memaksa generator untuk menggenerate gambar yang realistik, sementara generator memaksa diskriminator untuk meningkatkan kemampuan differensiasinya. Selama training, kedua jaringan saling berkompetisi dan saling membuat kuat jaringan lainnya.

Arsitektur yang umum digunakan untuk image generation dari sebuah variabel laten dapat dilihat pada gamber berikut:

Generator di training untuk melakukan maping vektor latent yang disampling dari latent space menjadi gambar. Diskriminator dipaksa untuk membedakan apakah gambar berasal dari distribusi gambar asli atau generated. Sehingga diskriminator diminta untuk menangkap fitur semantik dari gambar untuk menyelesaikan task. Parameter dari diskriminator akan menjadi pre-trained model untuk task komputer vision lainnya.

Secara matematis, generator G ditrain untuk mempelajari distribusi pz dari gambar asli, untuk menggenerati data realistik yang semirip mungkin dengan data asli. Sementara diskrimnator D ditrain untuk membedakan distribuasi dari data asli pdata dan distribusi data pz yang digenerat oleh generator G.

Metode image generation dari variabel random umumnya tidak butuh label manual. Namun tujuan task ini adalah untuk membuat gambar yang realistik, bukan untuk mendapatkan performa yang baik pada aplikasi downstream. Umumnya nilai inception dari gambar yang digenerate digunakan untuk menguji kualitas dari gambar. Hanya beberapa metode yang menguji kualitas fitur yang dipelajari oleh diskriminator pada task high level dan dibandingkan dengan yang lainnya.

Training adversarial dapat membantu jaringan untuk menangkap distribusi asli dari data sebenarnya dan menggenerate data realist. Teknik ini banyak digunakan pada task vision seperti image generation, video generation, super-resolution, image translation, dan image inpainting.

Sampai disini dulu, insyaallah besok saya akan lanjutkan dengan metode image generation dengan inpainting.

Papernya bisa dilihat pada link berikut :

https://arxiv.org/abs/1902.06162

.


Silahkan tuliskan tanggapan, kritik maupun saran