In diesem Artikel zeigen wir, wie sich eine Korrelationsanalyse in R berechnen lässt.
Die Daten
Die Analysen erfolgen an dem systeminternen Datensatz iris aus dem Paket datasets. Dieses wird mit library(datasets) geladen.
Den Datensatz laden wir dann in R durch data("iris").
Der Datensatz umfasst Daten zu jeweils 50 Blumen aus drei verschiedenen Spezien der Iris. Er beinhaltet dabei die Variablen Kelchblattlänge, Kelchblattbreite, Blütenblattlänge, Blütenblattbreite und Spezies. Wir möchten den Zusammenhang zwischen Blüten- und Kelchblattlänge einer Pflanze untersuchen.
Die Analyse
Die beiden Merkmale Blüten- und Kelchblattlänge sind metrischskaliert. Somit kann die Pearson Korrelation geeignet sein. Da eine Korrelation nach Pearson anfällig auf Ausreißer ist, lohnt es sich den Zusammenhang grafisch zu untersuchen. Ein Streudiagramm erhalten wir in R über die Funktion plot().
Obiger Befehl ergibt dann das folgende Streudiagramm.
Es zeigt sich, dass mit steigender Kelchblattlänge auch die Blütenlänge anzusteigen scheint. Eess sind dabei keine extremen Beobaxhtungen erkennbar. Somit sollten keine Ausreißer vorliegen. Die Pearson Korrelation kann genutzt werden. Wir erhalten in R mit der Funktion cor.test aus dem Paket stats die Pearson-Korrelation samt Signifikanztest.
Wir sehen die Korrelation zwischen Kelchblattlänge und Blütenlänge betrug r = 0,87. Sie ist nach Cohen stark positiv. Weiterhin ist die Korrelation signifikant von Null verschieden, p = 0,000.