Kumpulan dataset Publik


Buat para penggemar machine learning, nyari dataset tuh penting banget. Tadi nemu ada yang share kumpulan dataset publik

Mall Customers Datasetinfo tentang pengunjung mall, diantaranya gender, customer id, age, annual income, and spending score. Bisa dipake untuk segmentasi pelanggan berdasarkan umur, penghasilan dll. .

Boston Housing Dataset:  Hasil sensus dari US Cencus Service (kayak BPS) di boston tentang macam2. Diantaranya kepadatan penduduk, tingkat kriminalitas, prorporsi lahan bisnis di daerah boston dll
IRIS Dataset:
  tentang Bunga petal (daun) and sepal (kelopak). Bisa digunakan untuk klasifikasi dan regresi

MNIST Dataset: Tulisan tangan, untuk klasifikasi angka 0-9
Fake News Detection Dataset
:  berita palsu

Wine quality dataset:  info kimia tentang wine.

SOCR data — Heights and Weights Dataset:  Tinggi dan berat badan orang

Titanic Dataset: tentang penumpang titanic, ada info nama, umur, jenis kelamin, anggota keluarga yang ikut dll.

Credit Card Fraud Detection Dataset: Transaksi kartu kredit, dengan label fraud dan normal

Geografis

Google-Landmarks-v2:  Dataset untuk pengenalan wilayah (landmark recognition and retrieval).

Vision

xView dataset overhead imagery serta gambar pemandangan dari berbagai daerah.

ImageNet: Dataset terbesar di computer vision.

Kinetics-700Dataset url video dari youtube,ada sekitar 700,000 video.

Google’s Open ImagesDataset dari Google AI sekitar 10 juta gambar.

Cityscapes DatasetSequence video dari jalanan di 50 kota

IMDB-Wiki datasetDataset IMDB-Wiki isinya muka dengan label umur dan jenis kelamin. Dikumpulkan dari IMDB dan Wikipedia.

Color Detection Dataset: berisi 865 warna

Stanford Dogs Dataset: 20.580 gambar dari 120 jenis anjing

Analisa sentimen

Lexicoder Sentiment Dictionarykhusus untuk analisa sentimen. 3000 kata-kata negatif dan 2000 positiv

IMDB reviews: Dataset review 50 ribu movie

Stanford Sentiment Treebank: Standard sentiment dataset

Twitter US Airline Sentiment: Data Twitter review penerbangan di amerika pada bulan February 2015,diklasifikasikan sebagai komen positif, negatif, and neutral

Natural Language Processing (NLP)

The Big Bad NLP Database: Dataset NLP dari  Quantum Stat.

HotspotQA Dataset: Dataset tanya jawab isinya ada pertanyaan alami l, multi-hop, dll

Amazon Reviews: dataset Amazon, isinya 45 juta review Amazon .

Rotten Tomatoes Reviews:  480.000 review film

SMS Spam Collection in English: Dataset 5.574 pesan sms spam bahasa inggris English SMS spam messages.

Enron Email Dataset: 0,5 juta email dari 150 user.

Recommender Systems Dataset dataset review/komen orang dari Goodreads, Amazon, data bartending, data dari social media, dll

UCI Spambase DatasetDataset email spam

IMDB reviewsdataset review film

Autonomous Driving

Waymo Open DatasetDataset dari Waymo tentang autonomous driving,

Berkeley DeepDrive BDD100k: dataset 2000 jam orang nyetir sekitar New York dan California.

Bosch Small Traffic Light Dataset: Dataset untuk lampu perempatan (traffic lights)

LaRa Traffic Light Recognition: dataset untuk traffic lights di paris

WPI datasets: Datasets traffic lights, pejalan kaki dan deteksi lajur kendaraan

Comma.ai: dataset kecepatan mobil, akselerasi, sudut kemudi dan koordinat GPS

MIT AGE Lab: contoh 1.000 jam nyetir multi-sensor dari AgeLab.

LISA: Laboratory for Intelligent & Safe Automobiles, UC San Diego DatasetsDataset traffic signs, vehicle detection, traffic lights, dan trajectory patterns.

Cityscape Dataset: Dataset pemandangan jalan dari 50 kota

Medis

MaskedFace-NetDataset wajah pake masker yang benar dan salah. Ada 137ribu gambar dari  Flick-Faces-HQ dataset [21]. info lebih lanjut di Github.

COVID-19 Dataset: Dataset tentang Covid dari Allen Institute of AI. Ada 45 ribu penelitian ttg COVID-19.

MIMIC-III: dataset dari MIT Lab for Computational Physiology, tentang 40,ribu pasien kritis. ada info demographics, vital signs, laboratory tests, medications, dll

Sistem rekomendasi

MovieLens: rating data dari web MovieLens .

Jester:  4,1 juta rating (-10.00 to +10.00)dari 100 lawakan dari 73ribu orang

Million Song Dataset: Dataset lagu

Semoga Bermanfaat!

sumber:

https://pub.towardsai.net/best-datasets-for-machine-learning-data-science-computer-vision-nlp-ai-c9541058cf4f

post lainnya tentang dataset search engine


Silahkan tuliskan tanggapan, kritik maupun saran