Hoe kies je tussen Pearson en Spearman correlatie?

Hoe weet ik wanneer ik moet kiezen tussen Spearman's $rho$ en Pearson's $r$? Mijn variabele omvat tevredenheid en de scores werden geïnterpreteerd aan de hand van de som van de scores. Deze scores zouden echter ook gerangschikt kunnen worden.

Het kortste en meest juiste antwoord is:

Pearson benchmarks lineaire relatie, Spearman benchmarks monotone relatie (paar infiniteiten meer algemene geval, maar voor sommige macht tradeoff).

Dus als u aanneemt/denkt dat de relatie lineair is (of, als speciaal geval, dat het twee maatstaven van hetzelfde zijn, dus dat de relatie $y=1,x+0$ is) en de situatie is niet te ingewikkeld (controleer andere antwoorden voor details), kies dan Pearson. Gebruik anders Spearman.

Commentaren (0)

Dit gebeurt vaak in de statistiek: er zijn verschillende methoden die in uw situatie kunnen worden toegepast, en u weet niet welke u moet kiezen. U moet uw beslissing baseren op de voors en tegens van de overwogen methoden en de bijzonderheden van uw probleem, maar zelfs dan is de beslissing meestal subjectief zonder een overeengekomen "correct" antwoord. Meestal is het een goed idee om zoveel methoden uit te proberen als redelijk lijkt en uw geduld het toelaat en te zien welke u uiteindelijk de beste resultaten geven.

Het verschil tussen de Pearson-correlatie en de Spearman-correlatie is dat de Pearson het meest geschikt is voor metingen op een interval schaal, terwijl de Spearman meer geschikt is voor metingen op ordinale schalen. Voorbeelden van intervalschalen zijn "temperatuur in Farenheit" en "lengte in inches", waarbij de afzonderlijke eenheden (1 deg F, 1 in) betekenisvol zijn. Dingen als "tevredenheidscores" zijn meestal van het ordinale type, want hoewel het duidelijk is dat "5 geluk" gelukkiger is dan "3 geluk", is het niet duidelijk of je een zinvolle interpretatie zou kunnen geven van "1 eenheid van geluk". Maar als je veel metingen van het ordinale type optelt, wat in jouw geval het geval is, krijg je een meting die eigenlijk ordinaal noch interval is, en die moeilijk te interpreteren is.

Ik zou u aanraden uw tevredenheidsscores om te zetten in quantiel scores en dan te werken met de sommen daarvan, omdat u dan gegevens krijgt die iets beter te interpreteren zijn. Maar zelfs in dit geval is het niet duidelijk of Pearson of Spearman meer geschikt zou zijn.

Commentaren (1)

Hoewel ik het eens ben met het antwoord van Charles, zou ik (strikt praktisch gezien) willen voorstellen dat u beide coëfficiënten berekent en naar de verschillen kijkt. In veel gevallen zullen ze precies hetzelfde zijn, dus je hoeft je geen zorgen te maken.

Indien zij echter verschillen, moet u nagaan of u al dan niet aan de veronderstellingen van Pearsons (constante variantie en lineariteit) hebt voldaan en indien hieraan niet is voldaan, bent u waarschijnlijk beter af met Spearmans.

Commentaren (4)