Die Korrelation nach Pearson prüft für 2 mindestens intervallskalierte Merkmale, wie gut sich diese durch eine Gerade beschreiben lassen. Hierbei liegen die Werte die ein Korrelationskoeffizient nach Pearson annehmen kann zwischen - 1 und 1.
Es zeigt sich jedoch, dass die Korrelation nach Pearson anfällig auf extreme Beobachtungen, sogenannte Ausreißer, ist. Im Weiteren werden wir nun hierauf eingehen und aufzeigen, welche Möglichkeiten der Anwender hat um diesem Ausreißer zu begenen.
Die Daten
Wir erzeugen zunächst fiktive Daten. Hierzu sei die Variable x normalverteilt. Wir erzeugen zunächst mit dem Befehl rnorm 100 standardnormalverteilte Zufallszahlen. Damit die Ergebnisse reproduzierbar sind, legen wir zuvor den Startwert für den Zufallsgenerator fest. Dies erfolgt mittels des Befehls set.seed in R. Weiterhin erzeugen wir die Variable y aus der Variablen x (mittels linearer Transformation) und addieren t-verteilte Fehler hinzu. Letzteres hat den Zweck, das wir eine gewisse Streuung in den Daten haben. Anderfalls, bei einer reinen linearen Transformation, lägen alle Punkte exakt auf einer Geraden.
Zeigen wir uns das Objekt y in R an, so ist zuerkennen, dass eine sehr extreme Beobachtung mit 119.23 vorliegt. Diese kann die Ergebnisse unserer Korrelationsanalyse stark beeinflussen, wie wir im Folgenden sehen werden.
Zunächst ist es sinnvoll, den Ausreißer in den Daten zu identifizieren. Mittels des kommenden Befehls ermitteln wir die Position unseres Ausreißers innerhalb der Variablen y.
Korrelation und Ausreißer
Im Weiteren werden wir nun den Zusammenhang zwischen x und y visuell betrachten. Hierzu dienen die kommenden Befehle. Zunächst wird R mit der Funktion png angewiesen die Grafik als Bildatei zuerzeugen. Mittels des plot-Befehls erstellen wir dann ein Streudiagramm. Mittels der Funktion points, x[index] und y[index] wählen wir nur unseren Ausreißer an, sodass dieser mit der Option col = 2 in rot dargestellt wird. Mit dem ersten abline wird die Regressionsgerade für den Gesamtdatensatz (blau) eingezeichnet. Mit dem zweiten abline-Befehl wird die Gerade für den Datensatz ohne unseren Ausreißer (rot) in das Diagramm eingefügt. Mittels des Befehls legend wird entsprechend eine Legende in die Grafik gezeichnet.
Dies sieht dann wie folgt aus. Es ist zu erkennen, dass die Gerade für die Gesamtdaten (blau) oberhalb der Geraden ohne Ausreißer (rot) liegt. Durch die extreme Beobachtung wird die Regressionsgeraden also nach oben "gezogen", in Richtung des Ausreißers. Da einfache lineare Regression und Korrelation in engen mathematischen Zusammenhang stehen, gilt dieses Phänomen auch für Korrelationen.
Wir betrachten im Weiteren die genauen Auswirkungen auf unseren Korrelationskoeffizienten. Hierzu berechnen wir die Korrelation zunächst mittels der Gesamtdaten. Hierzu verwenden wir die Funktion cor.test. Es zeigt sich hierbei ein Korrelationskoeffizient in Höhe von r = 0,46. Dies entsprich nach Cohen einem mittelstarken Effekt.
Betrachten wir die Korrelation für den Datensatz ohne den Ausreißer, so erhalten wir folgendes:
Die Korrelation ist deutlich größer. Sie beträgt nun r = 0,80. Ohne Ausreißer zeigt sich also nach Cohen ein starker Effekt. Weiterhin zeigt sich, dass die Daten ohne Ausreißer sich deutlich besser durch eine Gerade beschreiben lassen. Ähnlich, wie wir es schon oben visuell gesehen haben. Für ordinalskalierte Merkmale existiert die Korrelation nach Spearman. Hierbei werden aus den Daten zunächst Ränge gebildet und daraufhin die Korrelation bestimmt. Durch die Rangbildung sind die Effekte von Ausreißern weniger stark bzw. eliminiert. Dies führt dazu, dass der Korrelationskoeffizient nach Spearman, im Gegensatz zu dem nach Pearson, nicht von Ausreißern beeinflusst wird. Dies deutet die kommende Berechnung ebenfalls an:
Die Korrelation nach Spearman beträgt 0,92. Der Zusammenhang ist nach Cohen stark. Es zeigt sich, dass die Korrelation nach Spearman nicht von Ausreißern beeinflusst wird.
Zusammenfassung und Empfehlungen
Wir haben gesehen, dass sich die Pearson Korrelation leicht durch Ausreißer beeinflussen lässt. Somit lohnt sich also vor Berechnung der Korrelationen die Daten genauer zu inspektieren. Zeigen sich Ausreißer, so muss der Anwender entscheiden, wie er weiter vorgeht. Zum Beispiel kann die Korrelation für einen Datensatz ohne den Ausreißer berechnet werden. In praktischen Anwendung sollte jedoch der Ausschluss von Daten inhaltlich begründet sein. Alternativ kann die Korrelation für die Gesamtdaten mittels des Koeffizienten nach Spearman erfolgen. Dieser ist im Vergleich zur Pearson Korrelation nicht auf Ausreißer anfällig.