Bagaimana untuk memilih antara Pearson dan Spearman korelasi?

Bagaimana saya tahu kapan harus memilih antara Spearman's $\rho$ dan Pearson's $r$? Saya variabel meliputi kepuasan dan skor diinterpretasikan dengan menggunakan jumlah dari skor. Namun, skor ini juga bisa menjadi peringkat.

Mengomentari pertanyaan (2)

Jika anda ingin menjelajahi data anda yang terbaik adalah untuk menghitung kedua, karena hubungan antara Spearman (S) dan Pearson (P) korelasi akan memberikan beberapa informasi. Secara singkat, S dihitung pada jajaran dan menggambarkan monoton hubungan sedangkan P adalah nilai-nilai yang benar dan menggambarkan hubungan linear.

Sebagai contoh, jika anda mengatur:

x=(1:100);  
y=exp(x);                         % then,
corr(x,y,'type','Spearman');      % will equal 1, and 
corr(x,y,'type','Pearson');       % will be about equal to 0.25

Hal ini karena $y$ meningkat secara monoton dengan $x$ sehingga korelasi Spearman adalah sempurna, tapi tidak linear, sehingga korelasi Pearson adalah tidak sempurna.

corr(x,log(y),'type','Pearson');  % will equal 1

Keduanya menarik karena jika anda memiliki S > P, yang berarti bahwa anda memiliki korelasi yang monoton tetapi tidak linier. Karena itu lebih baik untuk memiliki linearitas dalam statistik (lebih mudah), anda dapat mencoba untuk menerapkan transformasi pada $y$ (seperti log).

Saya berharap hal ini membantu untuk membuat perbedaan antara jenis korelasi lebih mudah untuk memahami.

Komentar (5)

Terpendek dan sebagian besar jawaban yang benar adalah:

Pearson tolok ukur linear hubungan, Spearman tolok ukur monoton hubungan (beberapa tidak terhingga yang lebih umum terjadi, tapi untuk beberapa power tradeoff).

Jadi jika anda menganggap/berpikir bahwa hubungan linier (atau, sebagai kasus khusus, bahwa mereka adalah dua langkah dari hal yang sama, sehingga hubungan adalah $y=1\cdot x+0$) dan situasi ini tidak terlalu weired (periksa jawaban lain untuk rincian), pergi dengan Pearson. Jika tidak menggunakan Spearman.

Komentar (0)

Ini sering terjadi dalam statistik: ada berbagai metode yang dapat diterapkan dalam situasi anda, dan anda don't tahu mana yang untuk memilih. Anda tidak harus mendasarkan keputusan anda pro dan kontra dari metode-metode di bawah pertimbangan dan spesifik dari masalah anda, tetapi bahkan kemudian keputusan ini biasanya subjektif dengan tidak disepakati "benar" jawabannya. Biasanya itu adalah ide yang baik untuk mencoba banyak metode seperti yang tampak masuk akal dan kesabaran anda akan memungkinkan dan melihat mana yang memberikan hasil terbaik di akhir.

Perbedaan antara korelasi Pearson dan Spearman korelasi adalah bahwa Pearson adalah yang paling tepat untuk pengukuran yang diambil dari interval skala, sedangkan Spearman adalah lebih tepat untuk pengukuran yang diambil dari ordinal timbangan. Contoh skala interval termasuk "suhu dalam Fahrenheit" dan "panjang dalam inci", di mana masing-masing unit (1 deg F, 1) yang berarti. Hal-hal seperti "nilai kepuasan" cenderung dari tipe ordinal sejak saat itu jelas bahwa "5 kebahagiaan" lebih bahagia dari "3 kebahagiaan", hal ini tidak jelas apakah anda bisa memberikan interpretasi bermakna "1 unit kebahagiaan". Tapi ketika anda tambahkan up banyak pengukuran ordinal jenis, yang adalah apa yang anda miliki dalam kasus anda, anda berakhir dengan pengukuran yang benar-benar baik ordinal atau interval, dan sulit untuk menafsirkan.

Saya akan merekomendasikan bahwa anda mengkonversi nilai kepuasan untuk quantile skor dan kemudian bekerja dengan sejumlah orang-orang, karena hal ini akan memberikan anda data yang sedikit lebih setuju untuk interpretasi. Tetapi bahkan dalam kasus ini tidak jelas apakah Pearson atau Spearman akan lebih tepat.

Komentar (1)

Aku berlari ke sudut menarik terjadi hari ini.

Jika kita melihat sangat kecil jumlah sampel, perbedaan antara Spearman dan Pearson dapat menjadi dramatis.

Dalam kasus di bawah ini, dua metode laporan yang tepat sebaliknya korelasi.

Beberapa aturan praktis untuk memutuskan Spearman vs Pearson:

  • Asumsi-asumsi Pearsons adalah varian konstan dan linearitas (atau sesuatu yang cukup dekat dengan itu), dan jika ini tidak terpenuhi, itu mungkin layak dicoba adalah spearman s.
  • Contoh di atas adalah kasus sudut yang hanya muncul jika ada segelintir (<5) datapoints. Jika ada >100 titik data, dan data linear atau dekat dengan itu, maka Pearson akan sangat mirip dengan Spearman.
  • Jika anda merasa bahwa regresi linier adalah metode yang cocok untuk menganalisis data, kemudian output dari Pearsons akan mencocokkan tanda dan besaran linier regresi slope (jika variabel-variabel yang standar).
  • Jika data memiliki beberapa komponen non-linear yang linear regresi tidak't pick up, kemudian pertama kali mencoba untuk meluruskan data ke dalam bentuk linear dengan menerapkan transformasi (mungkin log e). Jika itu doesn't bekerja, maka Spearman dapat menjadi pilihan yang tepat.
  • Saya selalu mencoba Pearson's pertama, dan jika itu doesn't bekerja, maka saya mencoba Spearman.
  • Anda dapat menambahkan lebih dari aturan-aturan ibu jari atau benar yang saya hanya menyimpulkan? Saya telah membuat pertanyaan ini komunitas Wiki sehingga anda dapat melakukannya.

p.s. Berikut ini adalah R kode untuk memunculkan grafik di atas:

# Script that shows that in some corner cases, the reported correlation for spearman can be
# exactly opposite to that for pearson. In this case, spearman is +0.4 and pearson is -0.4.
y = c(+2.5,-0.5, -0.8, -1)
x = c(+0.2,-3,   -2.5,+0.6)

plot(y ~ x,xlim=c(-6,+6),ylim=c(-1,+2.5))
title("Correlation: corner case for Spearman vs. Pearson\nNote that they are exactly opposite each other (-0.4 vs. +0.4)")
abline(v=0)
abline(h=0)
lm1=lm(y ~ x)
abline(lm1,col="red")

spearman = cor(y,x,method="spearman")
pearson = cor(y,x,method="pearson")
legend("topleft",
    c("Red line: regression.",
    sprintf("Spearman: %.5f",spearman),
    sprintf("Pearson:   +%.5f",pearson)
))
Komentar (0)

Sementara setuju dengan charles menjawab, saya akan menyarankan (pada praktek yang ketat tingkat) bahwa anda menghitung baik dari koefisien dan melihat perbedaan. Dalam banyak kasus, mereka akan persis sama, sehingga anda don't perlu khawatir.

Namun, jika mereka berbeda maka anda perlu untuk melihat apakah atau tidak anda memenuhi asumsi-asumsi dari Pearsons (varians konstan dan linearitas) dan jika ini tidak terpenuhi, anda mungkin lebih baik menggunakan adalah spearman s.

Komentar (4)