Buat para penggemar machine learning, nyari dataset tuh penting banget. Tadi nemu ada yang share kumpulan dataset publik
Mall Customers Dataset: info tentang pengunjung mall, diantaranya gender, customer id, age, annual income, and spending score. Bisa dipake untuk segmentasi pelanggan berdasarkan umur, penghasilan dll. .
Boston Housing Dataset: Hasil sensus dari US Cencus Service (kayak BPS) di boston tentang macam2. Diantaranya kepadatan penduduk, tingkat kriminalitas, prorporsi lahan bisnis di daerah boston dll
IRIS Dataset: tentang Bunga petal (daun) and sepal (kelopak). Bisa digunakan untuk klasifikasi dan regresi
MNIST Dataset: Tulisan tangan, untuk klasifikasi angka 0-9
Fake News Detection Dataset: berita palsu
Wine quality dataset: info kimia tentang wine.
SOCR data — Heights and Weights Dataset: Tinggi dan berat badan orang
Titanic Dataset: tentang penumpang titanic, ada info nama, umur, jenis kelamin, anggota keluarga yang ikut dll.
Credit Card Fraud Detection Dataset: Transaksi kartu kredit, dengan label fraud dan normal
Geografis
Google-Landmarks-v2: Dataset untuk pengenalan wilayah (landmark recognition and retrieval).
Vision
xView: dataset overhead imagery serta gambar pemandangan dari berbagai daerah.
ImageNet: Dataset terbesar di computer vision.
Kinetics-700: Dataset url video dari youtube,ada sekitar 700,000 video.
Google’s Open Images: Dataset dari Google AI sekitar 10 juta gambar.
Cityscapes Dataset: Sequence video dari jalanan di 50 kota
IMDB-Wiki dataset: Dataset IMDB-Wiki isinya muka dengan label umur dan jenis kelamin. Dikumpulkan dari IMDB dan Wikipedia.
Color Detection Dataset: berisi 865 warna
Stanford Dogs Dataset: 20.580 gambar dari 120 jenis anjing
Analisa sentimen
Lexicoder Sentiment Dictionary: khusus untuk analisa sentimen. 3000 kata-kata negatif dan 2000 positiv
IMDB reviews: Dataset review 50 ribu movie
Stanford Sentiment Treebank: Standard sentiment dataset
Twitter US Airline Sentiment: Data Twitter review penerbangan di amerika pada bulan February 2015,diklasifikasikan sebagai komen positif, negatif, and neutral
Natural Language Processing (NLP)
The Big Bad NLP Database: Dataset NLP dari Quantum Stat.
HotspotQA Dataset: Dataset tanya jawab isinya ada pertanyaan alami l, multi-hop, dll
Amazon Reviews: dataset Amazon, isinya 45 juta review Amazon .
Rotten Tomatoes Reviews: 480.000 review film
SMS Spam Collection in English: Dataset 5.574 pesan sms spam bahasa inggris English SMS spam messages.
Enron Email Dataset: 0,5 juta email dari 150 user.
Recommender Systems Dataset: dataset review/komen orang dari Goodreads, Amazon, data bartending, data dari social media, dll
UCI Spambase Dataset: Dataset email spam
IMDB reviews: dataset review film
Autonomous Driving
Waymo Open Dataset: Dataset dari Waymo tentang autonomous driving,
Berkeley DeepDrive BDD100k: dataset 2000 jam orang nyetir sekitar New York dan California.
Bosch Small Traffic Light Dataset: Dataset untuk lampu perempatan (traffic lights)
LaRa Traffic Light Recognition: dataset untuk traffic lights di paris
WPI datasets: Datasets traffic lights, pejalan kaki dan deteksi lajur kendaraan
Comma.ai: dataset kecepatan mobil, akselerasi, sudut kemudi dan koordinat GPS
MIT AGE Lab: contoh 1.000 jam nyetir multi-sensor dari AgeLab.
LISA: Laboratory for Intelligent & Safe Automobiles, UC San Diego Datasets: Dataset traffic signs, vehicle detection, traffic lights, dan trajectory patterns.
Cityscape Dataset: Dataset pemandangan jalan dari 50 kota
Medis
MaskedFace-Net: Dataset wajah pake masker yang benar dan salah. Ada 137ribu gambar dari Flick-Faces-HQ dataset [21]. info lebih lanjut di Github.
COVID-19 Dataset: Dataset tentang Covid dari Allen Institute of AI. Ada 45 ribu penelitian ttg COVID-19.
MIMIC-III: dataset dari MIT Lab for Computational Physiology, tentang 40,ribu pasien kritis. ada info demographics, vital signs, laboratory tests, medications, dll
Sistem rekomendasi
MovieLens: rating data dari web MovieLens .
Jester: 4,1 juta rating (-10.00 to +10.00)dari 100 lawakan dari 73ribu orang
Million Song Dataset: Dataset lagu
Semoga Bermanfaat!
sumber:
post lainnya tentang dataset search engine