In der Inferenz-Statistik wird als Signifikanz Test häufig der t-Test anwenden. Er wird genutzt, wenn Hypothesen geprüft werden sollen die sich auf Mittelwertunterschiede zwischen zwei unabhängigen Gruppen beziehen. In R kann dazu der t-Test für unabhängige Stichproben genutzt werden.
t-test in R: Die Daten
Für die Analysen nutzen wir den Datensatz wage1 aus dem Paket wooldridge. Dazu müssen wir zunächst das Paket mit library(wooldridge) laden. Nun befindet sich der unter Anderem der Datensatz wage1 im Workspace von R. Wir möchten untersuchen, ob signifikante Unterschiede zwischen Frauen und Männern bezüglich des logarithmierten Gehalts vorliegen. Die entsprechenden Variablen befinden sich im Datensatz wage1. Sie heißen female und lwage. Hierbei ist female eine Dummyvariable, die den Wert 0 annimmt, falls der Fall ein Mann ist und den Wert 1 aufweist, wenn der Falle eine Frau ist. Bei lwage handelt es sich um das logarithmierte Einkommen.
t-Test in R: Die Analyse
Die zentrale Annahme des t-Test in R ist dass die abhängige Variable innerhalb der beiden Gruppen normalverteilt ist. Dies prüfen wir in R mittels Q-Q-Plots. Hierzu muss für Männer und Frauen jeweils getrennt die Normalverteilungsannahme geprüft werden. Hierfür gibt es in R mehrere Wege. Einer davon ist es zwei subssample jeweils eines für Männer und eines für Frauen zu bilden. Daraufhin kann man den Q-Q-Plot für die beiden Teildatensätze über die Funktion qqnorm berechnen. In kommenden Bild ist der Code dargestellt für die beiden Subsample. Wir nutzen zur Bildung von Teildatensätzen die Funktion subset().
Mit dem Befehl qqnorm erhalten wir den Q-Q-Plot. Weiterhin können wir mit qqline eine Hilfsline einzeichnen. Dies können wir mit dem kommenden Code erreichen:
Wir erhalten mit obigem Code die folgende Grafik:
Die Verteilung der logarithmierten Einkommen der Männer scheint am linken Ende etwas stärker von der Normalverteilung abzuweichen als am rechten Ende. Bei den Frauen scheint es genau umgekehrt zu sein.
Weiterhin hat der t-Test die Annahme, dass die Varianz zwischen den Gruppen homogen bzw. gleich ist. Der Levene-Test ist hierbei in R im Paket car implementiert. Das Paket laden wir mit library(car). Die Funktion für den Levene-Test heißt dabei leveneTest. Zur Berechnung muss folgender Code genutzt werden: leveneTest(wage1$lwage, wage1$female) Kommender Output zeigt uns das Ergebnis:
Zunächst zeigen sich signifikante Varianzunterschiede zwischen Männern und Frauen, F(1, 524) = 13,46, p = 0,000. Somit liegt Varianzinhomogenität vor. Sprich die Streuung zwischen den Geschlechter bezogen auf das logarithmierte Gehalt ist nicht gleich. Es gilt bei der Anwendung der Funktion leveneTest, dass die Voreinstellung bei center auf Median liegt. Für den klassischen Levene-test muss hierbei noch die Option center = mean im Funktionsaufruf erfolgen.
Wir haben also die Annahmen des t-Tests überprüft. Wir können eine Normalverteilung annehmen, die Varianzgleichheit ist jedoch verletzt. Somit nutzen wir den t-Test für gleiche Varianzen in R. Häufig wird hierbei auch vom Welch-Test oder t-Test mit Welch-Korrektur gesprochen. Der Code lautet wie folgt: t.test(lwage ~ female, data = wage1). Die Funktion t.test hat dabei also Voreinstellung, dass der t-Test für ungeleiche Varianzen berechnet wird. Insofern müssen wir hierbei nichts weiterbeachten, als den Datensatz und abhängige und unabhängige Variablen an entsprechender Stelle im Funktionsaufruf zu platzieren.
Der obige Output aus R zeigt die Ergebnisse. Es zeigt sich, dass die Unterschiede im logarithmierten Gehalt zwischen Männern und Frauen bezüglich des t-Tests signifikant unterschiedlich sind, t(518,73) = 9,29, p = 0,000. Weiterhin liegt der Mittelwert bei Männern bei M = 1,81 und bei Frauen bei M = 1,42. Somit sind haben Männer höhere Einkommen als Frauen. Es stellt sich nun die Frage, wie stark diese Unterschiede sind. Wir beötigen also eine Effektgröße und die Stärke der Unterschiede statistisch beurteilen zu können. Hierzu nutzen wir Cohens d. Im Paket effsize erhalten wir eine Funktion die Cohens d berechnet. Wir laden das Paket, wie gewohnt, mit library(effsize). Die Funktion die wir nutzen heißt cohen.d. Ihrr funktionsweise ist großenteils analog zu der von t.test. Wir geben also in R ein cohen.d(lwage ~ female, data = wage1) und erhalten den kommenden Output.
Wir sehen d beträgt d = 0,80. Nach den Faustregeln von Cohen ist dies ein starker Effekt. Es ist also auf Basis dieser Stichprobe davon auszugehen, dass in der Grundgesamtheit tatsächlich Männer einen höheres logarithmiertes Einkommen aufweisen als Frauen.