Häufig müsst ihr in der Praxis Hypothesen prüfen, die sich auf Mittelwertunterschiede zwischen zwei unabhängigen Gruppen beziehen. Hierzu kann in der t-Test für unabhängige Stichproben in Stata genutzt werden.
Die Daten
Wir nutzen für die Analysen den systeminternen Datensatz bplong.dta. Hierbei handelt es sich um einen Datensatz der für N = 240 Probanden diverse Variablen umfasst. Beispielsweise enthält der Datensatz Informationen zu dem Geschlecht und dem Blutdruck der Patienten. Wir möchten prüfen, ob sich der Blutdruck zwischen männlichen und weiblichen Patienten signifikant unterscheidet. Eine Annahme des t-Tests für unabhängige Stichproben ist, dass die Werte der Testvariablen innerhalb der Gruppen jeweils einer Normalverteilung folgen. Somit muss dies zunächst geprüft werden. Den Datensatz laden können wir in Stata mit dem Befehl sysuse bplong.dta
Die Analyse
Eine zentrale Annahme des t-Tests ist es, dass die Verteilung der Testvariablen innerhalb der beiden Gruppen jeweils einer Normalverteilung folgt. Diese prüfen wir in Stata mittels Q-Q-Plots. Hierzu muss also für Männer und Frauen separat die Normalverteilungsannahme geprüft werden. Einen Q-Q-Plot für den Blutdruck der Männer erhalten wir mit dem Befehl qnorm bp if sex == 0. Männer sind in der Variablen sex mit 0 kodiert, eine Erstellung der ensprechenden Grafik erfolgt somit mit der if-Bedingung if sex == 0
Wie wir sehen liegen die Punkte im Q-Q-Plot nahezu auf einer Linie. Somit ist von einer hohen Übereinstimmung mit einer Normalverteilung bei den Blutdruckdaten der Männer auszugehen. Wir können die Normalverteilung also annehmen für die Gruppe der Männer. Kommender Q-Q-Plot zeigt die Verteilung der Blutdruckdaten der Frauen verglichen mit einer Normalverteilung.
Hier zeigt sich, dass die Verteilung der Blutdruckdaten der Frauen, zumindest an den Ränder deutlicher von einer Normalverteilung abweicht. Jedoch können die Abweichungen noch als vertretbar betrachtet werden. Weiterhin haben wir mit N = 240 ein große Stichprobe, weswegen wir Normalverteilung unter Argumentation des zentralen Grenzwertsatzes der Statistik annehmen können.
Wir möchten den unetrsuchen, ob die Verteilung des logarithmierten Einkommens innerhalb der Geschlechter normalverteilt ist. Dazu fügen wir in das Feld abhängige Variable das logarithmierte Einkommen, in das Feld Faktorliste die Variable Geschlecht ein und unter Anzeige stellen wir Diagramme ein. Das Dialogfeld sieht nun, wei im kommenden Screenshot aus.
Weiterhin hat der t-Test die Annahme, dass die Varianz zwischen den Gruppen homogen bzw. gleich ist. Varianzgleichheit können wir in Stata mit dem Befehl sdtest bp, by(sex) überprüfen. Kommender Output zeigt uns das Ergebnis:
Wie wir sehen liefert der Test auf Varianzhomogenität ein nicht-signifikantes Ergebnis, F(119, 119) = 1.35, p = 0,104. Somit liegen keine signifikanten VArianzunterschiede vor. Da nun alle Annahmen des t-Tests überprüft wurden, können wir die Mittelwertunterschiede im Blutdruck zwischen Männern und Frauen seelenruhig mit dem t-Test überprüfen. Der Befehl lautet ttest bp, by(sex). Kommender Screenshot zeigt uns die Ergebnisse.
Es zeigt sich, dass die Unterschiede im Blutdruck zwischen Männern und Frauen signifikant sind, t(238) = 4,28, p = 0,000. Die Unterschiede im durchschnittlichen Blutdruck sind zwischen den Geschlechtern liegt bei etwa 7. Also Männer haben im Durchschnitt einen um 7 Einheiten höheren Blutdruck als Frauen. Nun stellt sich die Frage der praktischen Relevanz dieses Unterschiedes. Sprich: Wir benötigen die Effektgröße Cohens d. Diese erhalten wir mit dem Befehl esize twosample bp, by(sex) cohensd . Kommender Screenshot zeigt das Ergebnis:
Wir sehen d beträgt d = 0,55. Dies spricht nahc den Faustregel für Cohen einem mittleren Effekt. Es ist also auf Basis dieser Stichproibe davon auszugehen, dass in der Grundgesamtheit tatsächlich Männer einen höheren Blutdruckaufweisen als Frauen.