Prüfung der Annahmen der linearen Regression in Stata

In diesem Artikel gehen wir darauf ein, wie die Prüfung der Annahmen der linearen Regression im Falle einer Stata-Auswertung erfolgt. Hierzu testet die Statistik-Beratung folgende Regressionsannahmen:

  1. Das Modell ist korrekt spezifiziert, das heißt
    1. es ist linear in seinen Parametern (Achsenabschnitt und Steigung)
    2. es enthält alle relevanten Variablen
    3. die Zahl der zuschanzenden Parameter ist kleiner als die Anzahl an Beobachtungen.
  2. Die Fehler haben konstante Varianzen (Homoskedastizität)
  3. Die Störgrößen sind unkorreliert (keine Autokorrelation)
  4. Die Störgrößen sind normalverteilt
  5. Zwischen den unabhängigen Variablen existiert keine lineare Abhängigkeit (keine perfekte Multikollinearität)

Der Datensatz

Für die Vorführung der Prüfung der Annahmen der Regression verwenden wir den Datensatz auto.dta. Dieser ist in Stata 15 implementiert. Kommender Screenshot zeigt den nötigen Befehl.

Eine kurze Beschreibung des Datensatz findest sich hier. Wir möchten den Preis eines Autos price dabei durch die Häufigkeit der Reparatur rep78 und dem Hubraum displacement erklären.

Hierzu führen wir die Regression mit regress aus. Dabei unterdrücken wir die Ergebnisse zunächst. Dies geschieht mit quietly. Es hat einen entscheidenden Grund. In Stata lassen sich die Tests für das Regressionsmodell bzw. zur Prüfung der Annahmen als sogenannte postestimation commands berechnen. Das heißt die Prüfung der Annahmen erfolgt nach einem berechneten Modell. Somit wird zunächst eine Regression geschätzt, daraufhin die Annahmen geprüft und anschließend das Modell gegebenenfalls für Annahmenverletzungen geändert.

Prüfung der Annahmen

1. Korrekte Modellspezifikation und Linearität

Mit dem postestimation command estat ovtest wird der RESET-Test zur Prüfung der Modellspezifikation durchgeführt. Dieser liefert ein nicht-signifikantes Ergebnis, F(3, 63) = 1,70, p = 0,176. Somit ist von einer korrekten Modellspezifikation auszugehen.

Das postestimation command avplots liefert dabei Grafiken, mit welchen die Linearität zwischen abhängiger und unabhängigen Variablen beurteilt wird. Es zeigt sich, dass beide Punktwolken durch Geraden beschrieben werden können. Somit ist die Linearitätsannahme erfüllt.

2. Homoskedastizität

Mittels des postestimation commands estat hettest wird der Breusch-Pagan-Test auf Heteroskedastizität berechnet. Dieser liefert ein signifikantes Ergebnis,  \chi^2(1)=13,92, p = 0,000.. Somit ist diese Annahme verletzt.

Kommende Grafik dient nochmals der Prüfung der Varianzen der Residuen. Es zeigt sich, dass die Streuung von links nach rechts immer stärker wird, somit wird das Ergebnis des Breusch-Pagan-Tests bestätigt. Damit ist die Annahme verletzt.

3. Keine Autokorrelation

Zur Prüfung der Autokorrelation ist es nötig einen Index für die Beobachtungen zu bilden. Hierbei erzeugen wir mittels des Befehls gen Index = _n bzw. ausgeschrieben generate Index = _n eine Variable, die die Beobachtungen von N = 1 , ..., 74 durchzählt. Dann wird diese Index-Variable als timeseries Variable deklariert. Dies geschieht mit tsset Index. Daraufhin verwenden Sie das postestimation command estat dwatson um den Durbin-Watson-Test zu berechnen. Dieser liefert ein nicht-signifikantes Ergebnis, DW = 1,12. Da DW zwischen 1 und 3 liegt.

4.Normalverteilung

Zur Prüfung der Normalverteilungsannahme benötigen wir die Residuen. Diese speichern wir uns in einer neuen Variablen ab. Hierbei erfolgt dies mit dem Befehl predict. Als Option verwenden wir hierbei res. Damit gewährleisten wir eine Speicherung der Residuen in der neuen Variablen residuals. Daraufhin verwenden Sie qnorm residuals um das Quantil-Quantil-Plot zu erstellen.

Dabei kann die Grafik in kommender Abbildung betrachtet werden. Es zeigt sich, dass die Punkte sehr um eine Linie schwanken. Somit ist die Normalverteilungsannahme nicht erfüllt.

5. Keine Multikollinearität

Das postestimation command vif berechnet uns die Varianzinflationsfaktoren des Modells. Diese sind kleiner als 10. Somit ist von keiner Multikollinearität auszugehen.

Das Modell

Die Prüfung der Annahmen ergab, dass die Annahmen Normalverteilung und Homoskedastizität verletzt waren. Somit wird das Modell zum einen mittels eines Bootstraps und zum anderen mit homoskedastizitätskonsistenten Schätzern bestimmt. Der Bootstrap dient zur Stabilisierung der p-Werte bei einer verletzten Normalverteilungsannahme. Dies geschieht mittels der Befehle bootstrap, reps(500): regress price rep78 displacement, vce(hc3). Dabei sorgen der Präfix bootstrap, reps(500): für einen Bootstrap mit 500 Replikationen und die Option vce(hc3), dass die Standardfehler heteroskedastizitätskonsistent geschätzt werden.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.