Menghitung Correlation Matrix


Habis Summercourse saya dapat PR banyak, diantaranya menghitung correlation matrix pake python. Misalnya ada sebuah tabel yang berisi berbagai variabel. Yang dimaksud correlation matrix adalah menghitung hubungan antar variabel. Nilai korelasi berkisar antara -1 sampe 1.

Korelasi 1 berarti kedua variabel tersebut sangat berhubungan. Misalnya ada variabel A dan B. Kalo nilai A naik maka pada kasus ini nilai B juga akan naik.

Korelasi -1 berarti kedua variabel tersebut berhubungan terbalik. Misalnya bila nilai A naik maka nilai B akan turun.

Kalo korelasi 0 berarti kedua variabel itu tidak saling berhubungan.

Nah PR nya kemaren adalah menghitung korelasi dari dataset yacht_hydrodynamics.csv . Dataset ini adalah dataset tentang faktor apa aja yang mempengaruhi resistansi (kekuatan) dari kapal yacht. Variabelnya ada 7:

  1. center of buoyancy
  2. prismatic coefficient
  3. length displacement
  4. bean drought ratio
  5. length beam ratio
  6. froude number
  7. resistance

Datasetnya bisa diunduh disini http://archive.ics.uci.edu/ml/datasets/yacht+hydrodynamics

Ok setelah browsing2 ternyata gak ribet ngitung korelasi matrixnya pake python. Skripnya kayak gini:

import pandas as pd

df = pd.read_csv(‘yacht_hydrodynamics.csv’)

df.corr()

Dan langsung keluar hasilnya kayak gambar diatas. Semoga Bermanfaat!

Referensi:


Silahkan tuliskan tanggapan, kritik maupun saran