Korrelations- bzw. Zusammenhangsanalysen

In unserer heutigen Statistik-Beratung möchten wir auf Maßzahlen eingehen, die häufig bei Statistik-Auswertungen zur Verwendung kommen. Wird eine Hypothese im Kontext eines Zusammenhangs, jedoch ohne eine unterstellte Ursachen-Wirkungs-Beziehung, formuliert, so können Korrelationsmaße eine sinnvolle Auswertungs-Strategie sein. Gänge Zusammenhangsmaße möchten wir im Folgenden Euch näher bringen.

Um Zusammenhänge zwischen Merkmalen zu untersuchen bieten sich unter anderem Korrelationskoeffizienten an. Für metrischskalierte Daten ist die Korrelation nach Pearson geeignet. Häufig wird in der Anwendung angenommen, dass die Pearson-Korrelation, einer Normalverteilung unterliegt. Jedoch ist die einzige Annahme, welcher dieser Korrelationskoeffizient unterliegt, jene bezüglich des Skalenniveaus der zu korrelierenden Merkmale. Für den Test auf Signifikanz einer Korrelation, der in den meisten Statistikprogrammpaketen implementiert ist, ist hingegen eine Verteilungsannahme zwingend: Die Annahme einer bivariaten Normalverteilung.

Liegen ordinalskalierte Merkmale vor, so eignen sich sogenannte Rangkorrelationskoeffizienten.  Hier bei werden aus den vorliegenden Daten die sogenannten Ränge gebildet. Diese werden gebildet, in dem fortlaufend der höchsten Kategorie der Rang N, der zweithöchsten der Rang N - 1 usw. zugeordnet wird. Dabei bezeichnet N die Stichprobengröße. Liegen in der Datenreihe Fälle vor, die die gleiche Kategorie aufweisen, so sprechen wir von Bindungen. Hierfür  bilden wir  Durchschnittsränge aus allen Fällen, die diese Kategorie aufweisen, über die zu vergebenen Kategorien. Bei einer hohen Stichprobengröße und geringer Anzahl an Kategorien kommen Bindungen erwartungsgemäß häufig vor. Nichtsdestotrotz sind Bindungen in der Anwendung ein häufig auftretendes Phänomen. Mit ihnen kann in der Praxis verschieden umgegangen werden. Die Bildung von Durchschnittsrängen ist nicht die einzige Möglichkeit mit Bindung umzugehen. Jedoch eine häufig benutzte.

Tabelle 1 zeigt uns für zwei Datenreihen das Vorgehen der Rangbildung. In der 1. Datenreihe treten Bindungen auf, die zweite ist hiervon frei. Der Durchschnittsrang für die ersten beiden Beobachtungen der ersten Datenreihe betrug (4 + 3) / 2 = 3.5. Durch dieses Vorgehen, wird die Rangverteilung derart beeinflusst, als dass diese bei Bindungen modifiziert werden muss. Weitere Möglichkeiten bei Umgang mit Rängen sind eine Vergabe der Ränge für die gebundenen Daten per Zufallsgenerator oder das rigorose Streichen der gebundenen Beobachtungen. Das letzt genannte Vorgehen erscheint jedoch nur sinnvoll, bei wenig Bindungen und einem hohen Stichprobenumfang, da hiermit ein Informationsverlust einhergeht.

Daten / Ränge

Schulnoten

gut gut befriedigend ausreichend

Rang

3.5 3.5 2 1

Schulnoten

sehr gut befriedigend gut mangelhaft

Rang

4 2 3 1

 Tabelle 1: Zwei Datenreihe und der Transformation in Rangreihen. Die obige Datenreihe enthält Bindungen. Die zweite ist hiervon frei.

Ein Korrelationskoeffizient, welcher sich bei ordinalskalierten Merkmalen eignet, ist der Korrelationskoeffizient nach Spearman. Hierbei wird der Perason Korrelationskoeffizient bzw. seine Formel auf die zuvor gebildeten Ränge angewandt. Ein anderer Rangkorrelationskoeffizient ist Kandall's tau. Er sollte Spearman vorgezogen werden, falls die Anzahl an Bindung hoch ist im Vergleich zum Stichprobenumfang.

Biseriale und punkt-biserial (Rang-)Korrelationskoeffizienten bieten sich an, falls ein (künstlich) dichotomes Merkmal mit einem metrischen oder rangskalierten Merkmal korreliert werden soll. Im Falle nominalskalierter Merkmal bieten sich Assoziationsmaße, wie der φ-Koeffizient und Cramer's V oder der exakte Test nach Fisher und der χ²-Test an.

Korrelations bedeutet nicht Kausalität. Berühmtes Beispiel für eine sog. Scheinkorrelation: Das Störche und Baby Beispiel. Zwischen Anzahl der Störche und der Geburtenrate lässt sich häufig ein hohe Korrelation nachweisen. Jedoch korrelieren beide Variablen widerrum mit der Industrialsierung bzw. Verstädterung. In diesem Falle kann eine Scheinkorrelation mittels eines sogenannten Partialkorrelation heraus gerechnet werden. Eine schönen Link weitere Beispielen an Scheinkorrelationen findet sich hier: Scheinkorrelationen.

Literatur

Büning, H. und Trenkler, G. (1994): Nichtparamterische statistische Methoden, 2. Auflage, Walter de Gruyter, Berlin.

Field, A. (2013): Discovering Statistics using IBM SPSS STATISTICS, 4. Auflage, Sage, London.

Scheinkorrelationen - Scheinkorrelationen Deutschland, http://scheinkorrelation.jimdo.com.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.