DINO dan PAWS


Saya lanjutkan pembahasan riset dari meta AI tentang Self-supervised transformer. Ada 2 inovasi yang dikenalkan tim meta AI yaitu DINO dan PAWS.

DINO mempelajari bagian obyek dan karakteristik yang dimiliki bersama antara beberapa gambar. Model DINO mempelajari fitur space yang memiliki struktur yang menarik. Bila kita meng-embed kelas ImageNet menggunakan fitur yang dihitung dengan DINO, model akan membuat gambar yang memiliki kategori sama berdekatan. Model menghubungkan kategori-kategori berdasarkan properti visual, mirip seperti yang dilakukan manusia.

Fitur space ini memudahkan kita untuk membuat klasifikasi k-NN, tanpa melakukan fine-tuning atau mempelajari klasifier. Performa dino lebih baik dibandingkan metode SSL lainnya. Dino juga bagus dalam menemukan gambar yang sama.

PAWS

PAWS menghasilkan akurasi lebih baik dibandingkan metode SSL lainnya, dengan jumlah training epoch 4x-12x lebih rendah. Contohnya ketika melakukan training sebuah model ResNet-50 hanya dengan 13 gambar berlabel per kelas, PAWS menghasilkan performa lebih baik setelah 100 kali epoch training (12x lebih rendah dibandingkan metode sebelumnya.

PAWS menggunakan pendekatan self-supervised seperti SwAV. Namun menggunakan label yang lebih sedikit, ditambah dengan data tidak berlabel.

Fokus pada pre-training adalah memetakan gambar ke representasi laten. Dari training sebuah gambar tidak berlabel, dibuat dua atau lebih versi gambar dengan augmentasi dan transformasi. Network kemudian ditraining untuk membuat representasi dari versi gambar ini mirip.

Bila metode self-supervised lainnya langsung membandingkan representasi dari gambar, PAWS menggunakan subsampel acak dari gambar berlabel untuk menetapkan pseudo label pada gambar input. Pseudo-label didapatkan dengan membandingkan representasi dari gambar tidak berlabel dengan representasi dari support sampel berlabel. Kemudian model diupdate dengan meminimalkan standard classification loss, seperti cross-entropy, antarathe pseudo-labels dari pasangan gambar input yang tidak berlabel

PAWS lebih rentan terhadap overfitting dibandingkan pendekatan semi-supervised lainnya. Karena PAWS tidak melakukan optimasi akurasi prediksi dari sampel berlabel. Dengan menggunakan data berlabel yang tidak banyak, PAWS lebih cepat melakukan training dibandingkan metode self-supervised lainnya.

PAWS melakukan prediksi dari versi positive dan anchor dari gambar dengan pendekatan berbeda. Meningkatkan (sharpening) prediksi target, sehingga PAWS tidak melakukan “collapsing representations,” dimana semua gambar dimapping ke representasi yang sama. Sebuah masalah yang umum pada metode self-supervised.

Kebutuhan anotasi dan pelabelan dataset adalah sebuah hambatan dalam perkembangan vision. Dengan DINO dan PAWS, model menjadi lebih efisien. Karena tidak memerlukan anotasi manual. Sehingga model bisa diterapkan pada task yang lebih besar, dan mengenali konsep yang lebih banyak. Learning dengan supervision yang terbatas juga pentung untuk bidang dengan dataset berlabel terbatas seperti medis.

Dino dan Paws juga mengurangi kebutuhan komputasi pada self-supervised dan semi supervised. Demikian pembahasan tentang riset Meta AI tentang self-supervised transformer.

Sumber:

https://ai.facebook.com/blog/dino-paws-computer-vision-with-self-supervised-transformers-and-10x-more-efficient-training/

Paper tentang DINO:

https://arxiv.org/abs/2104.14294?fbclid=IwAR0baKNKHAvzVa-AVomWVVrio9YItwZaoAXpRXlS26mbOqZknQZxylvOWZo

kode tentang DINO

https://github.com/facebookresearch/dino

Paper tentang PAWS:

https://arxiv.org/abs/2104.13963

kode tentang PAWS:

https://github.com/facebookresearch/suncet

Semoga Bermanfaat!


Silahkan tuliskan tanggapan, kritik maupun saran