Non contrastive energy based ssl

Pada tulisan sebelumnya telah dibahas tentang Self Supervised Learning, energy based model dan metode contrastive. Namun metode contrastive memiliki masalah yaitu tidak efisien untuk training. Pada tulisan ini saya lanjutkan pembahasan tentang non-contrastive energy based SSL.

Metode non-contrastive yang diterapkan pada arsitektur joint embedding saat ini adalah salah satu topik terhangat di SSL untuk komputer vision. Topik riset ini masih belum banyak dibahas, namun sepertinya sangat menjanjikan.

Beberapa contoh metode non-contrastive untuk joint embeeding diantaranya DeeperClusterClusterFitMoCo-v2SwAVSimSiam, Barlow Twins, BYOL dari DeepMind, dll. Mereka menggunakan berbagai macam teknik, seperti menghitung virtual target embedding untuk sekelompok gambar yang mirip (DeeperCluster, SwAV, SimSiam) atau membuat 2 arsitektur joint embedding yang sedikit berbeda pada arsitekturnya atau vektor parameternya (BYOL, Moco). Barlow Twins mencoba untuk melakukan minimisasi redundansi antara komponen individual dari vektor embedding.

Alternativ yang menarik dan belum banyak dicoba adalah membangun metoda non-contrastive dengan model prediksi latent-variable. Tantangan utamanya adalah dibutuhkan cara untuk memperkecil kapasitas dari variabel latent. Volume set dimana variabel laten dapat diubah membatasi volume output yang membutuhkan energi rendah. Dengan mengecilkan volume ini, kita dapat secara otomatis membentuk energi dengan benar.

Sebuah contoh sukses metode ini adalah  Variational Auto-Encoder (VAE), dimana variabel latent dibuat “fuzzy” yang membatasi kapasitasnya. Tapi VAE belum dapat menghasilkan representasi yang baik untuk downstream virtual task. Contoh sukses lainnya adalah sparse modeling, namun penggunaannya terbatas pada arsitektur sederhana. Belum ada sebuah cara yang manjur untuk membatasi kapasitas variabel laten.

Tantangan kedepan adalah untuk membangun metode contrastive untuk model energy based variable latent yang menghasilkan representasi yang baik untuk image, video, speech dan sinyal lainnya dan mencapai performa sangat baik pada tugas supervised downstream tanpa membutuhkan jumlah data dengan label yang besar.

Sampai disini dulu besok insyaallah akan saya lanjutkan dengan model SEER. Semoga bermanfaat!

referensi:

https://ai.facebook.com/blog/self-supervised-learning-the-dark-matter-of-intelligence/

Model prediksi Latent Variable

Tulisan ini merupakan lanjutan pembahasan tentang SSL. Pada tulisan sebelumnya telah diterangkan tentang kesulitan penerapan SSL pada komputer vision, salah satu ide untuk mengatasi permasalahan tersebut adalah dengan arsitektur prediksi latent-variable.

Model prediksi latent-variable memiliki variabel input tambahan (z). Disebut latent karena nilainya tidak pernah diamati. Dengan model yang terlatih dengan baik, variabel laten bervariasi pada set yang diberikan, prediksi output bervariasi diatas set prediksi yang mungkin dan kompatibel dengan input x.

Model variabel laten dapat dilatih dengan metoda contrastive. Contoh yang baik adalah GAN (generative adversarial network). Kritik (atau diskriminator) dapat dilihat sebagai menghitung sebuah energi yang menunjukan apakah input y terlihat baik. Jaringain generator dilatih untuk menghasilkan contoh contrastiv untuk mengasosiasikan energi tinggi.

Tapi metode contrastive memiliki maslaah besar yaitu: tidak efisien untuk dilatih. Pada ruang dimensi besar seperti gambar, ada banyak cara satu gambar berbeda dengan gambar yang lain. Menemukan satu set gambar contrastive yang mencakup semua cara mereka dapat berbeda adalah mustahil. Mengutip karya Leo Tolstoy Anna Karenina: semua keluarga bahagia adalah sama; namun setiap keluarga yang tidak bahagia memiliki masalahnya sendiri. Hal ini berlaku juga untuk semua obyek dengan dimensi tinggi.

Bagaimana jika mungkin untuk memastikan energi pasangan yang tidak kompatibel lebih tinggi daripada pasangan yang kompatibel, tanpa secara eksplisit mendorong energi dari banyak pasangan yang tidak kompatibel

Pada gambar diatas terlihat contoh arsitektur prediktif variabel laten. Dari pengamatan x, model harus dapat menghasilkan sebuah set beberapa prediksi yang kompatibel, dilambangkan dengan pita berbentuk S pada diagram. Karena variabel laten z dalam satu set bervariasi, dilambangkan dengan sebuah kotak abu-abu, output bervariasi atas set prediksi yang mungkin.

Sampai disini dulu, besok insyaallah saya lanjutkan dengan SSL non-contrastive energy based. Semoga bermanfaat!

referensi:

https://ai.facebook.com/blog/self-supervised-learning-the-dark-matter-of-intelligence/

SSL metode contrastive berbasis energi

Pada tulisan sebelumnya telah dibahas bahwa ada 2 metode untuk mencegah collapse yaitu metode contrastive dan regularization. Collapse terjadi bila energi yang dihasilkan pada kasus x dan y tidak match tidak lebih besar bila dibandingkan pada kasus x dan y match.

Metode contrastive

Metode Contrastive dibangun berdasarkan ide sederhana untuk membangun pasangan x dan y yang tidak kompatible, dan menyesuaikan parameter dari model sehingga energi output adalah besar.

Pada gambar diatas terlihat melakukan training EBM dengan metode contrastive terdiri dari menurunkan energi dari pasangan compatible (x,y) secara simultan dari training set, di gambar yang berwarna biru, dan menaikan energi dari pasangan (x,y) yang dipilih dan tidak compatible, dilambangkan dengan titik hijau. Dalam contoh sederhana ini, x dan y adalah skalar, tapi dalam realitanya, x dan y bisa berupa image atau video dengan jutaan dimensi. Menghasilkan pasangan yang tidak kompatibel yang akan membentuk energi dengan cara yang sesuai adalah tidak mudah dan membutuhkan komputasi besar.

Metode yang digunakan untuk melakukan training pada sistem NLP dengan menutupi (masking) atau mengganti beberapa kata input termasuk dalam kategori contrastive method. Namun tidak menggunakan arsitektur joint embedding. Sebaliknya mereka menggunakan arsitektur prediktif dimana model secara langsung menghasilkan prediksi untuk y. Caranya dengan memulai keseluruhan segment untuk tex y, dan kemudian merusaknya (corrupt), misalnya dengan menutupi beberapa kata untuk menghasilkan pengamatan x. Input yang korup dimasukan ke sebuah neural network yang besar yang dilatih untuk mereproduksi teks asli y. Teks yang tidak korup akan direkonstruksi sebagai dirinya sendiri (kesalahan rekonstruksi rendah), sedangkan teks yang rusak akan direkonstruksi sebagai versi dirinya sendiri yang tidak rusak (kesalahan rekonstruksi besar). Jika kita menerjemahkan eror rekonstruksi eror sebagai energi, ia akan memiliki properti yang diinginkan: energi rendah unutk teks bersih dan energi yang lebih tinggi untuk teks rusak (corrupt).

Teknik yang umum digunakan untuk melakukan training sebuah model untuk mengembalikan sebuah versi yang korup dari sebuah input disebut denoising auto-encoder. Bentuk awal dari ide ini berasal dari tahun 1980, tapi dipopulerkan pada tahun 2008 oleh Pascal Vincent dan koleganya di Universitas Montréal, kemudian diimplementasikan di NLP oleh Collobert dan Weston, dan dipoplerkan oleh BERT paper dari peneliti Google.

Model bahasa yang disembunyikan, merupakan contoh denoising auto-encoder, merupakan contoh SSL contrastive. Variabel y adalah sebuah segmen teks; x adalah sebuah versi dari teks dimana beberapa kata telah disembunyikan. Jaringan ditrain untuk merekonstruksi teks yang tidak korup.

Arsitektur prediksi tipe ini dapat menghasilkan sebuah prediksi untuk sebuah input yang diberikan. Karena model harus dapat memprediksi beberapa hasil output yang mungkin, prediksinya bukan satu set kata tapi serangkaian skor untuk setiap kata pada kosakata untuk setiap lokasi kata yang hilang.

Tapi teknik ini tidak dapat digunakan untuk iamge, karena kita tidak dapat menghitung semua gambar yang mungkin. Masalah ini belum dapat diatasi. Ada beberapa ide yang telah diajukan, namun tidak belum membuahkan hasil sebaik arsitektur joint embedding. Salah satu ide yang menarik adalah arsitektur prediksi latent-variable.

Sampai disini dulu, tentang arsitektur prediksi latent-variable akan saya lanjutkan pada tulisan berikutnya insyaAllah. Semoga Bermanfaat!

Metode Self Supervised

Ada pandangan untuk menempatkan SSL dalam Framework terpadu model berbasis energi (energy-based model/EBM). EBM adalah sistem yang dapat dilatih dengan 2 input x dan y, dapat memberitahukan seberapa tidak cocok (kompatibel) keduanya. Contohnya x dapat berupa video klip pendek dan y adalah video klip yang diusulkan. Mesin dapat memberitahukan sejauh mana y adalah kelanjutan dari x. Untuk menentukan ketidakcocokan antara x dan y, mesin membuat sebuah parameter yang disebut energi. Bila energinya rendah, x dan y dianggap cocok, bila tinggi maka dianggap tidak cocok.

Melakukan training EBM dibagi menjadi 2 tahap:

1) Menampilkan contoh x dan y yang cocok dan melakukan training untuk menghasilkan energi yang rendah.

2) Mencari sebuah cara untuk memastikan bahwa pada sebuah nilai x tertentu, nilai tidak cocok dengan x dan menghasilkan energi yang tinggi dibandingkan nilai y yang cocok dengan x.

Bagian pertama adalah mudah, tapi bagian kedua lebih sulit.

Untuk image recognition, model kita mengambil dua gambar, x dan y sebagai input. Jika x dan y merupakan versi yang berbeda dari sebuah gambar yang sama, model dilatih untuk menghasilkan output dengan energi rendah. Contohnya x adalah gambar sebuah mobil dan y adalah foto dari mobil yang sama yang diambil dari lokasi yang sedikit berbeda pada waktu yang berbeda, sehingga gambar mobil di y bergeser, berputar, membesar, mengecil dan menampilkan warna serta bayangan yang berbeda dari mobil pada x.

Pada gambar diatas terlihat model berbasis energi (EBM) mengukur kesesuaian antara pengamatan x dan prediksi yang diusulkan y. Jika x dan y kompatibel, energinya kecil; jika mereka tidak kompatibel, energi adalah jumlah yang lebih besar.

Joint Embedding, Siamese Network

Arsitektur deep learning yang cocok untuk membandingkan dua input adalah siamese network atau arsitektur joint embedding. Idenya berasal dari paper Geoff Hinton’s lab dan Yann LeCun’s pada tahun1990s (disini dan disini) dan pertengahan tahun 2000s (disinidisini, dan disini). Arsitektur ini sempat diabaikan pada rentang waktu cukup lama, namun mulai banyak digunakan sejak tahun 2019.

Arsitektur joint embedding terdiri dari 2 jaringan yang identik. Sebuah jaringan diberi input x dan jaringan lain diberi intput y. Jaringan menghasilkan vektor output yang disebut embedding, yang merepresentasikan x dan y. Modul ketiga, bergabung dengan jaringan di awal (kepala) menghitung energi sebagai jarak antara dua vektor embedding. Ketika model ditunjukan versi lain (terdistorsi) dari sebuah gambar yang sama, parameter dari jaringan disesuaikan sehingga outputnya bergerak semakin mendekat. Hal ini untuk memastikan bahwa jaringan akan menghasilkan representasi yang identik (embedding) dari sebuah obyek, terlepas dari view tertentu dari obyek.

Kesulitannya adalah memastikan bahwa jaringan menghasilkan energi tinggi, contohnya vektor embedding berbeda, ketika x dan y adalalah gambar yang berbeda. Tanpa cara khusus untuk melakukannya, kedua jaringan dapat mengabaikan inputnya dan selalu menghasilkan output embedding yang identik. Fenomena ini disebut sebuah collapse. Ketika collapse terjadi, energi tidak lebihbesar daripada x dan y yang tidak sesuai (matching) daripada x dan y yang matching. ada 2 kategori teknik untuk menghindari collapse: contrastive method dan metode regularisasi.

Arsitektur Joint embedding. Fungsi C yang paling atas menghasilkan energi skalar yang mengukur jarak vektor representasi (embedding) yang dihasilkan daru dua jaringan identical twin yang memiliki parameter w yang sama. Ketika x dan y adalah versi yang sedikit berbeda dari gambar yang sama, sistem di train untuk menghasilkan sebuah energi yang rendah, yang memaksa model untuk menghasilkan vektor embeeding yang serupa untuk kedua gambar. Bagian tersulit adalah melatih model agar menghasilkan energi tinggi (contohnya embedding berbeda) untuk gambar yang berbeda.

Sampai disini dulu, pada tulisan berikutnya akan saya lanjutkan tentang metoda contrastive energy-based ssl. Semoga bermanfaat!

Pemodelan ketidakpastian dalam prediksi – SSL

Tulisan ini lanjutan tulisan sebelumnya tentang self-supervised learning

Pada tulisan sebelumnya telah diceritakan tantangan penerapan SSL pada komputer vision adalah tentang pemodelan ketidakpastian. Untuk memahami tentang tantangan ini, kita perlu memahami prediksi dari ketidakpastian dan bagaimana dia dimodelkan di NLP dibandingkan dengan pada Vision. Di NLP, melakukan prediksi kata yang hilang melibatkan penghitungan skor prediksi pada setiap kata yang mungkin pada kosakata. Meskipun kosakata sendiri adalah besar, dan melakukan prediksi kata yang hilang melibatkan beberapa ketidakpastian, dimungkinkan untuk menghasilkan daftar dari kata-kata yang mungkin pada kosakata bersama dengan perkiraan munculnya kata tersebut pada lokasi yang kosong. Sistem mesin learning umumnya memperlakukan masalah ini sebagai masalah klasifikasi dan menghitung skor dari setiap output menggunakan layer besar yang dinamakan layer softmax. Layer ini melakukan transformasi skor kasar menjadi sebuah distribusi probabilitas dengan kata-kata. Dengan teknik ini ketidakpastian dari prediksi direpresentasikan dengan sebuah distribusi probabilitas dari semua keluaran yang mungkin, asalkan ada sejumlah kemungkinan output yang terbatas.

Sementara itu pada komputer vision, tugas yang dilakukan adalah melakukan prediksi frame yang hilang pada sebuah video, atau patch yang hilang pada sebuah gamnar atau segmen yang hilang pada sebuah sinyal suara. Task ini melibatkan prediksi obyek kontinu dengan dimensi tinggi dibandingkan output yang diskrit. Ada banyak sekali kemungkinan frame video yang mengikuti frame video yang diberikan. Tidak mungkin untuk merepresentasikan semua frame yang mungkin dan mengaitkan skor prediksinya. Faktanya kita tidak memiliki teknik untuk merepresentasikan distribusi probabilitas yang cocok untuk ruang kontinyu berdimensi tinggi seperti frame video. Implementasi SSL di Vision memang lebih rumit dibandingkan NLP.

Sampai disini dulu, besok insyaallah saya lanjutkan tentang framework metode SSL. Semoga bermanfaat!

referensi :

https://ai.facebook.com/blog/self-supervised-learning-the-dark-matter-of-intelligence

Self Supervised Learning adalah predictive learning

Tulisan ini adalah bagian kedua bahasan tentang Self Supervised Learning (SSL) dari blognya Yann Lecun dan Ishan Misra, bagian pertama bisa dilihat disini.

SSL mendapatkan supervisory signal (label output yang diinginkan) dari dataset, seringkali memanfaatkan struktur yang ditemukan pada data. Teknik SSL yang umum adalah untuk memprediksi bagian yang tidak teramati atau tersembunyi dari input dari bagian input yang diamati atau tidak tersembunyi. Contohnya pada NLP, kita bisa menyembunyikan bagian dari sebuah kalimat dan melakukan prediksi kata apa yang tersembunyi dari kata-kata yang ada. Dari sebuah fram video, kita juga dapat memprediksi frame sebelumnya maupun frame berikutnya. Karena SSL menggunakan struktur data itu sendiri, maka sinyal yang digunakan bisa beragam dari berbagai modal (misalnya video dan audio) dan dari berbagai dataset besar, tanpa mengandalkan label.

Karena supervisory signal memberi informasi ke SSL, istilah “Self-supervised learning” lebih cocok dibandingkan “unsupervised learning”. Unsupervised learning menunjukan proses learning tidak membutuhkan supervisi dari orang. SSL berbeda dengan unsupervised, karena membutuhkan feedback sinyal yang jauh lebih banyak dibandingkan supervised learning dan reinforcement learning.

SSL pada NLP

SSL telah berhasil digunakan pada NLP (natural language processing), dengan melatih model seperti BERT, RoBERTa, XLM-R, dll pada dataset besar yang belum memiliki label, kemudian menggunakan model ini pada task downstream. Model-model ini dilakukan pretraining pada fase self-supervised dan di tuning atau disesuaikan untuk task tertentu, seperti klasifikasi topik dari sebuah teks. Pada saat pretraining self-supervised, sistem ditunjukan sebuah teks pendek (biasanya sekitar 1000 kata) dimana beberapa kata telah ditutupi (masked) atau diganti. Sistem kemudian ditrain untuk melakukan prediksi kata yang telah ditutupi atau diganti. Sistem belajar untuk mencari representasi arti dari kata sehingga dapat mencari kata yang cocok, atau yang sesuai dengan konteks.

Mengisi bagian input yang hilang adalah task standar pada pretraining SSL. Untuk melengkapi sebuah kalimat seperti ” Seekor …… mengejar …. di savana (padang rumput)” sistem harus belajar bahwa singa maupun cheetah dapat mengejar kijang atau rusa, tapi kucing mengejar tikus di dapur, tidak di savana. Selama training, sistem belajar untuk mencari representasi arti dari kata-kata, peran sintatik dari kata-kata dan maksud dari seluruh teks.

Namun teknik ini tidak mudah diterapkan pada domain baru seperti komputer vision. Walaupun hasil awal cukup menjanjikan, SSL belum menghasilkan performa pada komputer vision seperti yang kita lihat pada NLP.

Alasan utamanya adalah lebih sulit untuk merepresentasikan ketidakpastian pada prediksi gambar dibandingkan pada kata-kata. Ketika kata yang hilang tidak bisa diprediksi secara tepat (apakah singa atau cheetah), sistem dapat menggunakan skor atau probabilitas untuk semua kemungkinan kata-kata dalam kosa kata: skor tinggi untuk singa, cheetah dan predator lainnya, dan memberikan nilai rendah pada kata-kata lain pada kosakata.

Melakukan training model pada skala ini membutuhkan sebuah arsitektur model yang efisien dari segi runtime dan memori, tanpa mengorbankan akurasi.

Untungnya, inovasi baru dari FAIR tentang desain arsitektur menghasilkan sebuah model keluarga baru yang disebut RegNets, yang sangat sesuai dengan kebutuhan ini. Model RegNet adalah ConvNet yang mampu meningkatkan skala data hingga miliaran atau bahkan triliunan parameter, dan dapat dioptimasi agar sesuai dengan runtime dan batasan memori yang berbeda.

Namun, kita belum tahu cara merepresentasikan ketidakpastian secara efisien ketika memprediksi frame yang hilang dalam video atau patch yang hilang pada gambar. Kami tidak dapat membuat daftar semua kemungkinan frame video dan mengaitkan skor ke masing-masing frame, karena jumlahnya tak terbatas. Sementara masalah ini telah membatasi peningkatan kinerja dari SSL dalam vision, teknik-teknik baru SSL seperti SwAV mulai mengalahkan rekor akurasi dalam tugas-tugas visi. Ini paling baik ditunjukkan oleh sistem SEER yang menggunakan jaringan konvolusi besar yang dilatih dengan miliaran data.

Sampai disini dulu, besok akan saya lanjutkan tentang pemodelan ketidak pastian, Semoga bermanfaat!

Self-supervised learning- Yann Lecun & Ishan Misra

Saya lagi baca tulisan menarik dari Yann LeCun dan Ishan Misra dari tim Facebook tentang Self-supervised learning. Berikut ini saya terjemahkan dan rangkum isi tulisan tersebut:

Artificial intelligence (AI) telah mengalami perkembangan yang pesat. Perkembangan ini mengandalkan proses AI yang belajar dari data yang banyak dan telah diberi label. Teknik ini disebut supervised learning (SL). Namun ada kekurangan dari metode SL. Yaitu memberi label pada data tidak mudah, dan membutuhkan usaha yang besar. Selain itu ada juga beberapa bidang yang tidak memiliki data yang cukup, misalnya untuk training sistem penerjemahan bahasa untuk bahasa yang tidak banyak digunakan.

Untuk itu diperlukan pendekatan AI yang berbeda, yang tidak mengandalkan SL. Pendekatan yang lebih mendekatan sistem kecerdasan manusia. Pada saat kita masih bayi, kita belajar mengenal dunia melalui pengamatan. Dari hasil pengamatan kita membentuk model prediksi tentang benda dan obyek yang ada disekitar kita. Dari pengamatan juga kita dapat mempelajari konsek kekelan obyek dan gravitasi. Semakin dewasa, kita mulai mengamati dunia, mengambil tindakan dan melakukan pengamatan lagi, kemudian membangun hipotesa untuk menjelaskan bagaimana tindakan kita mempengaruhi lingkungan dengan proses coba-coba (trial & error).

Hipotesa yang kita pelajari membentuk pengetahuan kita tentang dunia, atau akal sehat. Seperti itulah sistem kecerdasan manusia dan binatang dibentuk. Akal sehat ini merupakan anugrah yang dimiliki manusia dan binatang, namun meniru kecerdasan ini menjadi tantangan terbesar para peneliti AI. Akal sehat membantu manusia mempelajari keahlian baru tanpa membutuhkan proses pembelajaran yang besar pada setiap tugas. Contohnya bila kita tunjukan beberapa gambar sapi pada anak kecil, mereka dapat mengenali sapi manapun yang mereka lihat. Sementara bila kita bandingkan dengan sistem AI dengan SL membutuhkan contoh gambar sapi yang banyak dan seringkali gagal melakukan klasifikasi gambar sapi pada kondisi yang berbeda, contohnya gambar sapi yang sedang rebahan di pantai.

Contoh lainnya bagaimana cara manusia dapat belajar mengemudikan sebuah kendaraan hanya dengan latihan sebanyak 20 jam dengan proses supervisi yang sedikit, sementara sistem kemudi otomatis berbasis AI (autonomous driving) masih belum berhasil, padahal telah menggunakan sistem AI terbaik dengan proses training dan data ribuan jam dengan supervisi dari orang?

Jawabannya adalah manusia mengandalkan pengetahuan sebelumnya (background knowledge) tentang bagaimana dunia bekerja. Pertanyaannya sekarang bagaimana kita membuat mesin yang mampu melakukan hal yang sama dan meniru sistem kecerdasan manusia?

Self-supervised learning (SSL) adalah metode yang menjanjikan untuk membangun background knowledge dan diperkirakan dapat membentuk semacam akal sehat buatan bagi sistem AI. SSL memungkinkan sistem AI dapat belajar dari jumlah data yang lebih banyak, yang dibutuhkan untuk mengenali dan memahami pola yang lebih halus dan representasi yang tidak umum. SSL telah berhasil di NLP diantaranya pada metode Collobert-Weston 2008 modelWord2VecGloVEfastText, dan yang lebih baru, BERTRoBERTaXLM-R, dan lain-lain. Model yang dilatih dengan cara ini akan menghasilkan performa yang lebih tinggi dibandingkan metoda Supervised learning.

Proyek riset terbaru Facebook SEER mempengaruhi SwAV dan metode baru lainnya untuk dapat melakukan pretraining network besar pada milliaran gambar random yang tidak memiliki label, menghasilkan akurasi tinggi pada berbagai task vision. Perkembangan ini menunjukan bahwa SSL unggul dalam menyelesaikan permasalahan computer vision yang kompleks.

Sampai disini dulu, besok insyaallah saya lanjutkan lagi, nanti akan ada bahasan tentang model energy-based untuk prediksi adanya ketidakpastian, metode joint embedding methods dan arsitektur latent-variable architectures untuk self-supervised learning dan reasoning pada sistem AI.

Semoga bermanfaat!

Sumber:

https://ai.facebook.com/blog/self-supervised-learning-the-dark-matter-of-intelligence

https://github.com/Atcold/NYU-DLSP21

https://twitter.com/MLStreetTalk/status/1406884357185363974?fbclid=IwAR27t2Sr6-cyNms0w8dw5RRSfy0QLyuR1dHuFMrorOP9iHnjgzS1q9_tpa8

Kumpulan materi Self-supervised learning

Saya lagi belajar tentang self supervised learning, ini metode machine learning baru. Pertama denger pas ngikutin presentasi Yann LeCun. Jadi machine learning sekarang masih bergantung dengan metode supervised learning. Cuman tantangan dari metode Supervised ini adalah pada proses labeling data. Menurut Yann LeCun solusinya adalah dengan self supervised learning (SSL). Metode ini bisa memberi label sendiri terhadap dataset. Saya juga belum terlalu paham seperti apa SSL ini, masih baca2. Berikut ini saya kumpulkan beberapa materi tentang self-supervised learning:

Blog lilian weng

https://lilianweng.github.io/lil-log/2019/11/10/self-supervised-learning.html

tulisannya facebook. Oiya Yann leCun ini sekarang salah satu bosnya FB:

https://ai.facebook.com/blog/self-supervised-learning-the-dark-matter-of-intelligence/

Slide presentasi Andrew Zisserman peneliti oxford

Kumpulan link ttg SSL dari Jason Ren

https://github.com/jason718/awesome-self-supervised-learning

Tulisan Ben Dickson tentang keynote speech nya yann lecun ttg ssl

Tulisan Jeremy howard:

https://www.fast.ai/2020/01/13/self_supervised/

Video kuliahnya Yann LeCun

Tulisan lainnya:

https://research.aimultiple.com/self-supervised-learning/

Semoga Bermanfaat!