Chi-Quadrat-Test in R

Im heutigen Artikel gehen wir darauf ein, wie ein Chi-Quadrat-Test in R umgesetzt wird. Im Falle zweier kategorialer Merkmale wird dieser häufig bei der Statistik-Beratung verwendet.

Die Daten

Für die Analyse mittels Chi-Quadrat-Test werden wir den Datensatz Titanic aus dem Paket datasets benutzen. Dabei lesen wir das Paket datasets wie gewohnt mit library(datasets) ein. Kommender Screenshot zeigt uns den Aufbau des Datensatzes beziehungsweise des Objekts Titanic.

Wir wollen den Zusammenhang zwischen dem Überleben Survived und der Reiseklasse beziehungsweise Crew Class untersuchen. Um uns hierzu aus dem Objekt Titanic eine Kreuztabelle mit dem Überleben gegen die Klassenzugehörigkeit zu erzeugen, ist es sinnvoll, sich zunächst mit der Beschaffenheit des Objekts auseinander zusetzen. Kommender Screenshot zeigt die Struktur des Objekts. Es handelt sich hierbei um einen table mit Listeneinträgen. Dabei sind die Einträge der Liste gerade die vier Merkmale Class, Sex, Age und Survived.

Kommendes Bild zeigt den Code um die oben erwähnte Kreuztabelle zu berechnen. Hierbei verwenden wir die Funktion apply. Das erste Element im Funktionsaufruf ist dabei das Objekt Titanic. Als margin wurde der Vektor c(4, 1) angegeben. Damit werden das vierte und das erste Listenelement angewählt. Also Survived und Class. Weiterhin wenden wir die Funktion sum auf Titanic an. Somit erhalten wir die folgende Kreuztabelle.

Die Analyse

Mittels des Befehls chisq.test() wird der Chi-Quadrat-Test berechnet. Hierbei kann das Objekt unter anderem als table an die Funktion übergeben werden. Der Chi-Quadrat-Test liefert hierbei ein signifikantes Ergebnis, \chi^2(3)=190,4, p = 0,000. Weiterhin ist die Annahme, dass alle erwarteten Häufigkeiten größer 5 sind, erfüllt. Die Berechnung der erwarteten Häufigkeiten erfolgt in R wie folgt. Wir hatten zunächst den Chi-Quadrat-Test in dem Objekt test abgespeichert. Hierauf haben wir uns mit test$expected die erwarteten Häufigkeiten ausgegeben lassen.

Möchten wir die Stärke des Zusammenhangs beurteilen, so bietet sich Cramer's V an. Dieses ist im Paket questionr implementiert. Die Funktion cramer.v berechnet jenes. Dabei ergab sich ein Cramer's V von 0,29. Somit ist der Zusammenhang unbedeutsam.

Chi-Quadrat-Test in SPSS

Im Falle von kategorialen Merkmalen und Zusammenhangsanalysen kommt bei einer SPSS-Auswertung häufig der Chi-Quadrat-Test zur Verwendung. Er findet bei kategorialen Merkmalen verwenden. Hierbei zeigen wir im heutigen Beitrag auf, wie der Test in SPSS umzusetzen ist. Die Umsetzung einer Zusammenhangsanalyse metrischer Daten erfolgt in SPSS mit der Pearson-Korrelation.

Die Daten

Wir nutzen zu Vorführung den Datensatz cereal.sav der in SPSS 26 als Beispieldatensatz vorliegt. Dabei enthält dieser Datensatz informationen zu dem Alter (in Klassen), Geschlecht, Familienstand, Art des Lifestyles und das präferierte Frühstück von N = 880 Personen.

Die Analyse

Wir wollen den Zusammenhang zwischen Alter und präferiertem Frühstück untersuchen.

Erstellung der Kreuztabelle

Hierzu gehen Sie auf Analysieren > Deskriptive Statistik > Kreuztabellen.

Es öffnet sich das folgende Menu. Hierbei fügen wir die Variablen agecat in das Feld Zeilen und bfast in das Feld Spalten ein.

Anwahl des Chi-Quadrat-Tests und Assoziationsmaßes

Das Fenster sieht nun wie in kommenden Bild aus. Wir klicken nun auf den Button Statistik.

Es öffnet sich das kommende Fenster. Da wir den Chi-Quadrat-Test berechnen möchten, machen wir einen Haken an Chi-Quadrat. Weiterhin möchten wir uns ein Zusammenhangsmaß ausgeben lassen, dass für nominale Skalen geeignet ist. Hierbei stehen uns mehre in SPSS zur verfügung. Wir wählen Cramer's V. Somit machen wir einen Haken an Phi und Cramer-V.

Das Fenster sieht nun wie in dem nächsten Bild aus. Nun klicken wir auf Weiter.

Weitere Kennzahlen bzw. Statistiken für die Kreuztabelle

Wir befinden uns wieder im Hauptmenu für Kreuztabellen. Wir wollen weitere Anpassungen an unsere Berechnungen vornehmen , sodass wir auf Zeilen klicken.

Folgendes Fenster öffnet sich jetzt. Hier können diverse Statistiken bezüglich der Kreuztabelle angewählt werden. So ist es möglich sich die erwarteten Häufigkeiten mit in der Kreuztabelle angeben zu lassen. Nichtsdestotrotz ist das nicht zwingend notwendig, da ohnehin eine Fußnote unter der Kreuztabelle in jedem Falle mit angibt, ob die Annahme der erwarteten Häufigkeiten erfüllt ist beziehungsweise wieviele Zellen der Kreuztabelle den Richtwert von größer 5 nicht erreichen.

Wesentlicher sind im Kontext von Gruppenvergleichen die Zeilen- beziehungsweise Spaltenprozente. Mit Ihnen kann der Zusammenhang schon einemal an Und der Kreuztabelle beurteilt werden, ohne eine Kennzahl für die Stärke, wie Cramer's V, zu bestimmen.

Weitere Einstellungen sind hier noch möglich. Wir klicken Zeilenweise an, sodass dort ein Haken angezeigt wird.

Nun sieht das Fenster wie in kommenden Bild aus. Wir drücken auf Weiter, da wir alle wesentlichen Einstellungen hier vorgenommen haben.

Wir befinden uns nun wieder im Hauptmenu zur Kreuztabelle. Da alle Einstellungen erfolgt sind, drücken wir nun auf OK. Die Berechnungen werden nun ausgeführt.

Die Ergebnisse

In der SPSS-Ausgabe erscheinen nun diverse Tabellen. Zunächst können wir die Ergebnisse des Chi-Qudrat-Test der kommende Tabelle entnehmen. Es zeigt sich ein signifikanter Zusammenhang zwischen Alter und dem präferiertem Frühstück, \chi^2(6)=309,34, p = 0,000. Die Annahme das alle erwarteten Häufigkeiten größer 5 sind ist erfüllt. Dies ist der Fussnote unter der Tabelle zu entnehmen. Hier steht 0 Zellen haben erwartete Häufigkeit kleiner 5.

Kommende Tabelle zeigt die Kontigenztafel beziehungsweise Kreuztabelle zwischen Alter und präferiertem Frühstück. Es zeigen sich zwischen den Altersgruppen Unterschiede in dem bevorzugten Frühstück. So bevorzugen die unter 31 Jährigen einen Frühstücksriegel oder Frühstücksflocken. Dies ist ähnlich in der Gruppe der 31 - 45 Jährigen, wobei hier der Anteil an Personen die Haferbrei bevorzugen schon größer ist als bei den unter 31 Jährigen. In der Klasse der 46 - 60 Jährigen werden Haferbrei oder Frühstücksflocken am häufigsten konsumiert. Bei den über 60 Jährigen hingegen bevorzugt der Großteil Haferbrei.

Als Zusammenhangsmaß zur Beurteilung der Stärke wird Cramer's V bestimmt. Dies ist der kommende Tabelle zu entnehmen. Cramer's V betrug dabei V = 0,42. Dies entspricht einen bedeutsamen Zusammenhang. Werte über 0,3 gelten als starke Assoziationen zwischen zwei nominalen Merkmalen.

gepaarter t-Test in Stata

In der heutigen Auswertung zeigen wir euch, wie ein gepaarter t-Test in Stata erfolgt.

Die Daten

Dazu verwenden wir die Daten bpwide.dta. Eine Beschreibung der Daten findet sich hier. Wir möchten hierbei den Blutdruck vor und nach einer Intervention der im Datensatz befindlichen Patienten vergleichen. Hierzu nutzen wir den t-Test für gepaarte Stichproben.

Ergebnisse

Hierbei zeigt sich, dass sich die Messungen signifikant unterscheiden, t(119) = 3,34, p = 0,011. Auf Grund der Großen Stichprobe von N = 120 ist eine annähernde Normalverteilung der Differenz der Messungen anzunehmen (Annahme des gepaarten t-Tests).

Zur Beurteilung, wie sich die Unterschiede äußern, betrachten wir die deskriptiven Statistiken im Output. Dabei zeigt sich, dass vor Intervention der mittlere Blutdruck der Teilnehmer bei M = 156,46 und nach der Intervention bei M = 151,36 lag. Somit ist ein signifikanter Rückgang nach der Intervention im Blutdruck der Patienten nachgewiesen.

gepaarter t-Test in R

Dieser Artikel beinhaltet die Umsetzung eines gepaarten t-Tests bei einer R-Auswertung.

Der Datensatz

Hierzu verwenden wir den Datensatz AMSsurvey aus dem Paket car. Dieser enthält die Anzahl an Dissertationen in Mathematik nach Institution, Geschlecht und Staatsangehörigkeit für die Jahre 2008 - 2009 count und die Jahre 2011 - 2012 count11. Kommendes Bild zeigt die Daten. Dabei wollen wir untersuchen, ob sich die Anzahl an Dissertationen über die beiden Messungen verändert hat.

Die Ergebnisse

Zur Prüfung auf eine signifikante Veränderung verwenden wir die Funktion t.test(). Dabei geben wir die beiden Variablen innerhalb der Funktion folgendermaßen an t.test(AMSsurvey$count, AMSsurvey$count11, paired = TRUE). Die Option paired = TRUE weist R dabei an, den t-Test für verbundene Stichproben zu verwenden. Es zeigt sich, dass die Anzahl an Dissertation von den Jahren 2008 - 2009 zu den Jahren 2011 - 2012 signifikant unterschiedlich ist, t(23) = -2,64, p = o,015. Da die Teststatistik negativ ist, wissen wir, dass die mittlere Anzahl an Dissertationen in den Jahren 2011 - 2012 größer war als in 2008 - 2009. Dies erkennen wir ebenfalls an der negativen Mittelwertdifferenz von -8,92 unten im Output. Somit ist die mittlere Anzahl an Dissertationen in den Jahren 2011 - 2012 um 8,92 höher als in den Jahren 2008 - 2009.

gepaarter t-Test in SPSS

Ein gepaarter t-Test wird häufig im Kontext einer SPSS-Auswertung durchgeführt. In diesem Zusammenhang befassen wir uns heute in unserer Statistik-Beratung mit der Berechnung eines gepaarten t-Tests in SPSS.

Die Daten

Wir verwenden den Datensatz test_scores.sav. Dieser ist ein programminterner Datensatz von SPSS 26. Hierbei handelt es sich um einen Datensatz der die Ergebnisse eines Tests an N = 2133 Schülern diverser Schulen beinhaltet. Dabei liegen die Ergebnis des Test vor und nach einer Intervention vor. Wir werden die Prä- und Post-Ergebnisse vergleichen. Somit handelt es sich um verbundene Stichproben. Somit kommt der gepaarte t-Test zu Einsatz. Dabei zeigt kommendes Bild einen Ausschnitt des Datensatzes.

Berechnung des t-Tests

Zur Berechnung des gepaarten t-Tests gehen Sie auf Analysieren > Mittelwert vergleichen > t-Test bei verbundenen Stichproben.

Es öffnet sich daraufhin das folgende Fenster. Hier geben Sie in das Feld Variable1 die Variable pretest. Entsprechend muss die Variable posttest in das Feld Variable2 eingefügt werden.

Das Fenster sieht nun wie in kommendem Bild aus. Jetzt bestätigen wir mit OK. Die Berechnungen erfolgen nun.

Die Ergebnisse

Nun erscheinen in der SPSS-Ausgabe diverse Tabellen. Die wichtigste Tabelle an Ergebnisse ist die folgende. Dabei enthält sie die Ergebnisse des gepaarten t-Tests. Hierbei sind die wichtigsten Werte in den Spalten T, df und Sig. (2-seitig) vorzufinden.

Das Ergebnis des t-Tests ist signifikant, t(2132) = -129,33, p = 0,000. Somit unterscheiden sich die Ergebnisse des Prä- und Posttests in Ihrer Grundgesamtheit.

Zur Prüfung wie sich die Unterschiede in den Messungen äußern, dient die kommende Tabelle. Sie zeigt die deskriptiven Statistiken der Prä- und Post-Messungen. Dabei zeigt sich, dass die Schüler im Prätest eine mittlere Punktzahl von M = 54,96 erzielen. In der Post-Messungen liegt die durchschnittliche Punktzahl bei M = 67,10. Damit zeigt sich also eine Verbesserung der Schüler. Dabei ist die Verbesserung gemäß des t-Tests signifikant.

Obige Tabellen waren die wichtigsten zur Interpretation des t-Tests für gepaarte Stichproben. Dabei wurde mit der Berechnung des t-Tests weiterhin die Korrelation zwischen Prä- und Post-Messung ausgegeben. Kommendes Bild zeigt die Tabelle. Entsprechend dem Ergebnissen aus der Tabelle zeigt sich eine signifikante und stark positive Korrelation, r = 0,95, p = 0,000. Somit zeigt sich, dass Schüler, die vorher vergleichsweise Schlechter abgeschnitten haben, auch im Post-Test zu den Schlechteren gehörten.

Die Behauptung veranschaulicht auch das folgende Diagramm. Wie ein Streudiagramm in SPSS erzeugt wird erfahren Sie dabei hier.

unverbundener t-Test in Stata

In diesem Beitrag lernen Sie, wie der unverbundene t-Test bei Stata durchgeführt wird. Ein t-Test ist dabei eine häufig bei Stata-Auswertungen verwendete Methode.

Die Daten

Für die Untersuchungen wird der Datensatz bpwide.dta aus Stata 15 verwendet. Mit sysuse bpwide.dta wird der Datensatz geladen, vergleiche den kommenden Screenshot. Dieser Datensatz beinhaltet die Daten von 60 Männern und 60 Frauen bezüglich ihres Blutdrucks vor und nach einer Intervention. Wir möchten den Blutdruck zwischen den Geschlechter vor Intervention vergleichen und verwenden hierzu den t-Test für unverbundnen Stichproben.

Prüfung der Annahmen

Der t-Test für verbundene Stichproben unterliegt zwei Annahmen. Zum einen der Normalverteilungsannahme innerhalb der Gruppen und zum Anderen der Varianzgleichheit zwischen den Gruppen. Die Normalverteilungsannahme ist dabei erfüllt. Beide Gruppen sind jeweils N = 60 groß und damit größer als unsere Konvention von einem N > 30. Somit muss nur noch die Varianz zwischen den Gruppen untersucht werden. Dazu wird der Levene-Test verwendet. Dieser ist in der Funktion sdtest implementiert.

Ergebnisse

Nachfolgender Output zeigt die Ergebnisse des t-Tests. Hierbei wurde die Funktion ttest angewendet. Wobei die Option by(sex) Stata anweist den t-Test für unverbundene Stichproben bezüglich der Variablen bp_before zu berechnen. Dabei ergaben sich nicht-signifikante Unterschiede im Blutdruck zwischen den Geschlechtern, t(118) = 2,78, p = 0,0062. Unter Mean beobachten wir für Männer einen mittleren Blutdruck von M = 159,26 und für Frauen M = 153,63. Wie oben erwähnt sind die Unterschiede jedoch nicht-signifikant (zwei zeitiger Test).

Wird der Output weiter betrachtet, so zeigt sich, dass die p-Werte für die einseitigen Testvarianten ebenfalls diesen zu entnehmen sind. Links unten ist der p-Wert für die Alternativhypothese \mu_{Männer} < \mu_{Frauen} bzw. \mu_{Männer}-\mu_{Frauen}<0. Weiterhin ist ebenso der p-Wert für die Alternative \mu_{Männer} > \mu_{Frauen} bzw. \mu_{Männer}-\mu_{Frauen}>0 unten rechts angegeben.

unverbundener t-Test in R

In heutigem Artikel führen wir vor, wie bei einer R-Auswertung die Berechnung eines t-Tests für unverbundene Stichproben erfolgt.

Die Daten

Wir verwenden für die Analysen den Datensatz sleep aus dem Paket datasets. Hierbei beinhaltet der Datensatz Ergebnisse zu einem Test bei zwei Gruppen. Dabei bekamen beiden Gruppen jeweils ein unterschiedliches Schlafmittel. Dies ist die Variable group. Mit beiden Gruppen wurde daraufhin ein Test durchgeführt. Dabei wurde die Zunahme der Schlafstunden der Patienten unter dem entsprechenden Präparat gemessen. Hierbei handelt es sich um die Variable extra.

Prüfung der Annahmen

Der t-Test unterliegt zwei Annahmen. Dabei handelt es sich um die Voraussetzung der Normalverteilung und um die Annahme gleicher Varianzen jeweils innerhalb der Gruppen. Die Prüfung der Normalverteilungsannahme werden wir in diesem Artikel nicht behandeln. Hingegen werden wir jedoch die zweite Annahme des t-Tests einer Prüfung unterziehen. Dabei verwenden wir die Funktion leveneTest() aus dem Paket car. Mit library(car) laden wir das Paket in R. Kommender Screenshot zeigt den Code, wie auch den Output zu den Berechnung des Levene-Tests auf Varianzhomogenität. Dabei gibt extra ~ group an, dass der Test bezüglich extra für die Gruppen group erfolgen soll. Weiterhin wird mit der Option data = sleep der Funktion "mitgeteilt", dass die Variablen extra und group in dem Datensatz sleep befindlich sind. Abschließend wurde mit der Option center = "mean" die Funktion angewiesen, den gewöhnlichen Levene-Test durchzuführen. Voreingestellt ist hier der Median. Weitere robuste Varianten sind in der Funktion implementiert.

Der Levene-Test liefert hierbei ein nicht-signifikantes Ergebnis, F(1, 18) = 0,620, p = 0,441. Somit ist keine signifikante Varianzinhomogenität vorliegend. Die Annahme ist somit erfüllt.

Die Ergebnisse

Für die Berechnung des t-Test verwenden Sie die Funktion t.test(). Vergleich den kommenden Screenshot, welcher den Funktionsaufruf und den Output zeigt. Mit dem Ausdruck extra ~ group weist man die Funktion an, den t-Test für unverbundene Stichproben zu verwenden. Weiterhin wird mit data = sleep wieder der Datensatz spezifiziert. Abschließend wurde die Option var.equal = TRUE benutzt. Dies ermöglich die Berechnung des t-Tests für gleiche Varianzen. Dabei liefert dieser ein nicht-signifikantes Ergebnis, t(18) = -1,86, p = 0,079. Somit sind keine signifikanten Unterschiede zwischen den Schlafmitteln bezüglich der Zunahme an Schlafstunden nachweisbar. Weiterhin sind im Output die mittleren Zunahmen an Schlafstunden für die beiden Gruppen dargestellt. Hier zeigt sich, dass Gruppe 1 eine durchschnittliche Zunahme von M = 0,75 Stunden und Gruppe 2 eine mittlere Zunahme von M = 2,33 Stunden hat Weiterhin ist noch das 95%-Konfidenzintervall der Mittelwertdifferenz zwischen den Gruppen im Output dargestellt.

unverbundener t-Test in SPSS

Zur Prüfung auf Unterschiede zwischen zwei unabhängigen Gruppen wird bei einer statistischen Beratung oft der t-Test verwendet. In der folgenden SPSS-Auswertung werden wir uns mit dessen Umsetzung befassen.

Der Datensatz

Hierzu werden wir den Datensatz Employee Data.sav, welcher in SPSS implementiert ist, verwenden. Dieser umfasst diverse Variablen zu Arbeitnehmern, wie zum Beispiel das Geschlecht und Gehalt.

Durchführung des t-Tests in SPSS

Um einen t-Test für unabhängige Gruppen zu berechnen, gehen Sie auf Analysieren > Mittelwerte vergleichen > t- Test bei unabhängigen Stichproben.

Es öffnet sich daraufhin das kommende Fenster. Fügen Sie dabei das Geschlecht als Grupperierungsvariablen und das Gehalt als Testvariable in die entsprechenden Felder.

Das Menu sollte nun folgend ausschauen. Nun klicken Sie auf Gruppen definieren.

Es öffnet sich das kommende Fenster. Wir müssen die beiden Gruppen gemäß der Kodierung der Variablenausprägungen deklarieren. Da das Geschlecht eine Zeichenfolge ist, geben wir an dieser Stelle m und w an. Dies sind die Merkmalsausprägungen der Variablen Geschlecht. Dies funktioniert jedoch auch mit numerischen Variablen. Die Grupperierungsvariable muss keine Zeichenfolge sein! Anschließend bestätigen wir mit Weiter.

Wir sind wieder im Hauptmenu des t-Tests. Nun bestätigen wir mit OK und schauen uns die Ergebnisse an.

Ergebnisse

In kommender Tabelle sehen wir die Ergebnisse. Hierbei erhalten wir zwei Ergebnisse für den t-Test. In Zeile 1 (Varianzen sind gleich) finden wir das Ergebnis des t-Tests für gleiche Varianzen in den Gruppen. Sind die Varianzen unterschiedlich, so orientieren wir uns an der zweiten Zeile (Varianzen sind ungleich). Ob die Streuungen gleich oder ungleich sind prüfen wir mit dem Levene-Test. Auch dessen Ergebnis finden wir in der Tabelle. Die ersten beiden Spalten zeigen uns die wichtigen Werte. Hier zeigt sich, dass die Streuungen signifikant unterschiedlich sind, F = 119,67, p = 0,000.

Somit müssen wir die zweite Zeile der Tabelle zur Interpretation des t-Tests verwenden. Dabei ergibt sich ein signifikanter Unterschied zwischen den Geschlechtern im Gehalt, t(344,26) = 11,69, p = 0,000. Beachten Sie, dass wir nun nur Wissen, das sich die Gehälter zwischen den Geschlechtern unterscheiden. Das Ergebnis des Tests lässt nicht in Schluss zu wie sich die Gehälter unterscheiden.

Zu diesem Zweck betrachten wir nach dem Test die Verteilungen der Gehälter mit dem Mittelwert. Dabei zeigt sich, dass der Mittelwert bei den männlichen Gehältern bei M = 41441,78 und bei weiblichen Gehältern bei 26031,92 liegt. Somit sind die Gehälter der Männer signifikant höher.

Wir wissen, das Einkommensverteilungen rechtsschief sind. In diesem Zusammenhang konnte Die Normalverteilungsannahme des t-Tests hier auf Grund der großen Gruppengrößen als erfüllt betrachtet werden.

Prüfung der Annahmen der linearen Regression in Stata

In diesem Artikel gehen wir darauf ein, wie die Prüfung der Annahmen der linearen Regression im Falle einer Stata-Auswertung erfolgt. Hierzu testet die Statistik-Beratung folgende Regressionsannahmen:

  1. Das Modell ist korrekt spezifiziert, das heißt
    1. es ist linear in seinen Parametern (Achsenabschnitt und Steigung)
    2. es enthält alle relevanten Variablen
    3. die Zahl der zuschanzenden Parameter ist kleiner als die Anzahl an Beobachtungen.
  2. Die Fehler haben konstante Varianzen (Homoskedastizität)
  3. Die Störgrößen sind unkorreliert (keine Autokorrelation)
  4. Die Störgrößen sind normalverteilt
  5. Zwischen den unabhängigen Variablen existiert keine lineare Abhängigkeit (keine perfekte Multikollinearität)

Der Datensatz

Für die Vorführung der Prüfung der Annahmen der Regression verwenden wir den Datensatz auto.dta. Dieser ist in Stata 15 implementiert. Kommender Screenshot zeigt den nötigen Befehl.

Eine kurze Beschreibung des Datensatz findest sich hier. Wir möchten den Preis eines Autos price dabei durch die Häufigkeit der Reparatur rep78 und dem Hubraum displacement erklären.

Hierzu führen wir die Regression mit regress aus. Dabei unterdrücken wir die Ergebnisse zunächst. Dies geschieht mit quietly. Es hat einen entscheidenden Grund. In Stata lassen sich die Tests für das Regressionsmodell bzw. zur Prüfung der Annahmen als sogenannte postestimation commands berechnen. Das heißt die Prüfung der Annahmen erfolgt nach einem berechneten Modell. Somit wird zunächst eine Regression geschätzt, daraufhin die Annahmen geprüft und anschließend das Modell gegebenenfalls für Annahmenverletzungen geändert.

Prüfung der Annahmen

1. Korrekte Modellspezifikation und Linearität

Mit dem postestimation command estat ovtest wird der RESET-Test zur Prüfung der Modellspezifikation durchgeführt. Dieser liefert ein nicht-signifikantes Ergebnis, F(3, 63) = 1,70, p = 0,176. Somit ist von einer korrekten Modellspezifikation auszugehen.

Das postestimation command avplots liefert dabei Grafiken, mit welchen die Linearität zwischen abhängiger und unabhängigen Variablen beurteilt wird. Es zeigt sich, dass beide Punktwolken durch Geraden beschrieben werden können. Somit ist die Linearitätsannahme erfüllt.

2. Homoskedastizität

Mittels des postestimation commands estat hettest wird der Breusch-Pagan-Test auf Heteroskedastizität berechnet. Dieser liefert ein signifikantes Ergebnis,  \chi^2(1)=13,92, p = 0,000.. Somit ist diese Annahme verletzt.

Kommende Grafik dient nochmals der Prüfung der Varianzen der Residuen. Es zeigt sich, dass die Streuung von links nach rechts immer stärker wird, somit wird das Ergebnis des Breusch-Pagan-Tests bestätigt. Damit ist die Annahme verletzt.

3. Keine Autokorrelation

Zur Prüfung der Autokorrelation ist es nötig einen Index für die Beobachtungen zu bilden. Hierbei erzeugen wir mittels des Befehls gen Index = _n bzw. ausgeschrieben generate Index = _n eine Variable, die die Beobachtungen von N = 1 , ..., 74 durchzählt. Dann wird diese Index-Variable als timeseries Variable deklariert. Dies geschieht mit tsset Index. Daraufhin verwenden Sie das postestimation command estat dwatson um den Durbin-Watson-Test zu berechnen. Dieser liefert ein nicht-signifikantes Ergebnis, DW = 1,12. Da DW zwischen 1 und 3 liegt.

4.Normalverteilung

Zur Prüfung der Normalverteilungsannahme benötigen wir die Residuen. Diese speichern wir uns in einer neuen Variablen ab. Hierbei erfolgt dies mit dem Befehl predict. Als Option verwenden wir hierbei res. Damit gewährleisten wir eine Speicherung der Residuen in der neuen Variablen residuals. Daraufhin verwenden Sie qnorm residuals um das Quantil-Quantil-Plot zu erstellen.

Dabei kann die Grafik in kommender Abbildung betrachtet werden. Es zeigt sich, dass die Punkte sehr um eine Linie schwanken. Somit ist die Normalverteilungsannahme nicht erfüllt.

5. Keine Multikollinearität

Das postestimation command vif berechnet uns die Varianzinflationsfaktoren des Modells. Diese sind kleiner als 10. Somit ist von keiner Multikollinearität auszugehen.

Das Modell

Die Prüfung der Annahmen ergab, dass die Annahmen Normalverteilung und Homoskedastizität verletzt waren. Somit wird das Modell zum einen mittels eines Bootstraps und zum anderen mit homoskedastizitätskonsistenten Schätzern bestimmt. Der Bootstrap dient zur Stabilisierung der p-Werte bei einer verletzten Normalverteilungsannahme. Dies geschieht mittels der Befehle bootstrap, reps(500): regress price rep78 displacement, vce(hc3). Dabei sorgen der Präfix bootstrap, reps(500): für einen Bootstrap mit 500 Replikationen und die Option vce(hc3), dass die Standardfehler heteroskedastizitätskonsistent geschätzt werden.

Prüfung der Annahmen der Linearen Regression in R

Häufig kommt die Software R bei einer statistischen Beratung zum Einsatz. Im Rahmen einer R-Auswertung wird dabei die lineare Regression oft verwendet. In diesem Artikel befassen wir uns mit der Prüfung der Regressionannahmen in R. Diese lauten:

  1. Das Modell ist korrekt spezifiziert, das heißt
    1. es ist linear in seinen Parametern (Achsenabschnitt und Steigung)
    2. es enthält alle relevanten Variablen
    3. die Zahl der zuschanzenden Parameter ist kleiner als die Anzahl an Beobachtungen.
  2. Die Fehler haben konstante Varianzen (Homoskedastizität)
  3. Die Störgrößen sind unkorreliert (keine Autokorrelation)
  4. Die Störgrößen sind normalverteilt
  5. Zwischen den unabhängigen Variablen existiert keine lineare Abhängigkeit (keine perfekte Multikollinearität)

Der Datensatz

Wir verwenden den Datensatz longley aus dem Paket datasets. Hierzu laden wir zunächst mit dem library(datasets) das entsprechende Paket. Dabei laden wir den Datensatz mit dem Befehl data(longley) in den Workspace von R. Kommendes Bild zeigt das aufgerufene Objekt longley in der R-Konsole.

Hierbei enthält dieser Datensatz unter Anderem das Bruttosozialprodukt, die Anzahl an Anzahl der Mitglieder der Streitkräfte und Anzahl der Berufstätigen in den Jahren 1947 bis 1962. Bei unserem Modell ist das Bruttosozialprodukt die abhängige Variable, die beiden anderen genannten Variablen die unabhängigen Variablen. Dies geschieht mit dem Befehl lm() in folgendem Screenshot. Dabei wurden die Ergebnisse als Objekt modell in dem Workspace von R abgespeichert.

Prüfung der Annahmen der linearen Regression

Für die Prüfung der Modellannahmen werden folgende Pakete in R geladen: lmtest und car. Dabei beinhaltet das Paket car eine Funktion zur Berechnung des Durbin-Watson-Tests auf Autokorrelation, wie auch zur Bestimmung der Varianzinflationsfaktoren (VIF). Weiterhin enthält das Paket lmtest demgegenüber eine Vielzahl an Tests für ein lineares Regressionsmodell. Verwenden Sie die R-Funktionen zu dem Rainbow-, RESET- und Breusch-Pagan-Test.

1. Korrekte Modellspezifikation und Linearität

Für die Prüfung der Modellspezifikation wird der RESET-Test verwendet. Dabei zeigt der kommende Output die Ergebnisse für unser Modell.

Damit ergibt sich ein nicht-signifikantes Ergebnis, F(2, 11) = 1,59, p = 0,248. Somit ist von einer korrekten Modellspezifikation auszugehen.

Weiterhin wurde der Rainbow-Test verwendet. Dieser prüft, ob das Modell der Linearitätsannahme entspricht. Dabei deutet ein signifikantes Ergebnis auf eine Verletzung der Linearität hin. Kommender Output zeigt uns das Ergebnis.

Der Rainbow-Test liefert hierbei ein nicht-signifikantes Ergebnis, F(8, 5) = 1,41, p = 0,368. Somit liegt keine signifikante Verletzung der Linearitätsannahme vor.

2. Homoskedastizität

Hierzu wird der Breusch-Pagan-Test verwendet. Dies erfolgt mittels des Befehls bptest(). Hierbei liefert der Test ein nicht-signifikantes Ergebnis, \chi^2(2) = 1,61, p = 0,448. Somit liegt keine signifikante Heteroskedastizität vor. Die Annahme ist erfüllt.

3. Keine Autokorrelation

Um auf Autokorrelation zu prüfen wird der Durbin-Watson-Test benutzt. Diesen erhalten wir in R mit der Funktion durbinWatsonTest(). Hierbei ergibt sich ein nicht-signifikantes Ergebnis, DW = 1,53, p = 0,11. Somit muss nicht von Autokorrelation ausgegangen werden. Die Annahme ist somit erfüllt.

4. Normalverteilung

Kommende Grafik dient der Prüfung der Normalverteilungsannahme. Dabei handelt sich um ein Quantil-Quantil-Plot. Es zeigt sich, dass die Punkte nahezu auf einer Linie liegen. Am rechten Rand der Verteilung gibt es etwas Abweichungen. Im Quantil-Quantil-Plot oben zu erkennen. Insgesamt kann jedoch eine annähernde Normalverteiltheit angenommen werden.

5. Keine Multikollinearität

Zum Abschluss prüfen wir auf Multikollinearität. Deswegen verwenden wir die VIF, welche Sie durch die Funktion vif() erhalten. Dabei zeigt der kommende Screenshot die Ergebnisse unserer Regression. Hierbei zeigt sich, dass beide unabhängigen Variablen kein Multikollinearitätsproblem verursachen. Da beide VIF kleiner 10 sind.