Training Data science with python


Minggu lalu saya ikutan training data science with python, training ini diselenggarakan oleh Bandung Digital Valley dengan mentor Ibu Marisa Paryasto dan Pak Budi Rahardjo. Pada bagian pengantar pak Budi bercerita menurut Wikibrand Data science merupakan bagian penting dari 30 Emerging Technology. Dia memberi contoh data science bahkan digunakan oleh tim Formula 1 untuk merancang mobilnya dan strategi balapnya. Contoh lainnya pada film moneyball, film ini dari kisah nyata tentang manajer tim baseball oakland atletic Billy Beane. Billy merekrut Peter Brand sarjana ekonomi yang punya ide menggunakan statistik untuk menganalisa kemampuan pemain. Dengan metode baru ini Billy yang memiliki anggaran terbatas berhasil membentuk tim yang kompetitif untuk Liga Baseball MLB.

Kemudian pak Budi bercerita juga bagaimana tim sepakbola Liverpool menggunakan data science untuk memenangkan kompetisi. Videonya bisa dilihat disini:

Kemudian dijelaskan tentang Drew Conway diagram vena, yaitu data science merupakan gabungan dari kemampuan hacking, statistik dan domain expertise. Data science mempelajari banyak data, ada banyak format data yaitu kolom, csv, json, xml maupun free format. Data tersebut sebelum diolah dilakukan wrangling dan diubah bentuknya (manipulasi). Bentuk data bisa dalam teks, atau binary.

Untuk peneliti statistik, pengolahan data dilakukan dengan bahasa S yang kemudian berkembang jadi bahasa R. Namun untuk kalangan umum, yang lebih populer adalah bahasa Python. Kelebihan python karena memiliki berbagai lybrary, contohnya yang populer ada numpy, pandas, scipy dan matplotlib. Beberapa contoh algoritma yang digunakan misalnya linear regression, knn, k-means, naive bayes dll.

Kemudian Bu marisa alias kak cika menambahkan dalam data ada istilah 4V yaitu volume, velocity, variety dan veracity. Ada juga istilah 5V yaitu 4V+ value. Kemudian berkembang jadi 8V yaitu 5V+visualisasi, viscosity dan virality. Data ada sangat banyak dan membutuhkan tempat penyimpanan besar, contohnya dia pernah mengumpulkan sebanyak 40 trillion data. Kak cika bercerita juga untuk mengambil data dari web sosmed misalnya twitter, ada dua cara yaitu scraping dan menggunakan API. Ada perbedaan dari dua metode tersebut.

Kelebihan python menurut kak cika, open source, komunitasnya besar, dan lebih mudah dipelajari. Namun bahasa R juga kelebihannya lebih bagus visualisasinya, lebih scientific, namun lebih cocok untuk sistem standalone.

Library pandas digunakan untuk mengubah struktur data, seperti kolom. Format input data yang banyak digunakan adalah csv dan json. Json umumnya memiliki nama field dulu kemudian diikuti data. Library python lainnya ada scikit, bokeh, seaburn, nitk, wordcloud, stopwords. Interface yang banyak digunakan adalah jupyter dan google colab. Untuk data dalam bentuk array matriks library numpy banyak digunakan. Sampai disini dulu, besok saya lanjutkan dengan materi training hari ke 2


Silahkan tuliskan tanggapan, kritik maupun saran