Prüfung der Annahmen der linearen Regression in SPSS

Eine SPSS-Auswertung mittels einer multiplen linearen Regression ist ein denkbares Arbeitsfeld einer Statistik-Beratung. Dabei unterliegt die lineare Regression einigen Annahmen. In SPSS lassen sich jedoch nicht alle davon überprüfen. Die Prüfung der folgenden Regressionsannahmen wollen wir in diesem Artikel behandeln:

  1. Das Modell ist korrekt spezifiziert, das heißt
    1. es ist linear in seinen Parametern (Achsenabschnitt und Steigung)
    2. es enthält alle relevanten Variablen
    3. die Zahl der zu schätzenden Parameter ist kleiner als die Anzahl an Beobachtungen.
  2. Die Fehler haben konstante Varianzen (Homoskedastizität)
  3. Die Störgrößen sind normalverteilt
  4. Die Störgrößen sind unkorreliert (keine Autokorrelation)
  5. Zwischen den unabhängigen Variablen existiert keine lineare Abhängigkeit (keine perfekte Multikollinearität)

Dazu bedienen wir uns dem Datensatz Employee Data.sav. Dieser ist in SPSS enthalten.

Hierbei handelt es sich um einen Datensatz, der diverse Merkmale von Arbeitnehmern beinhaltet. Unter Anderem Geschlecht, Gehalt, Anfangsgehalt, Beschäftigungsdauer, Angehörigkeit einer Minderheit. Hierbei werden wir uns bei der Regression auf die Variablen Gehalt (abhängige Variable), Anfangsgehalt, Beschäftigungsdauer und Angehöriger einer Minderheit (unabhängige Variablen) fokussieren.

Vor Erstellung des Modells sind Vorüberlegungen sinnvoll. Einkommensverteilungen sind rechtsschief. Wie hier gesehen, ist es häufig sinnvoll eine Transformation der rechtsschiefen abhängigen Variablen zu verwenden.

Hierzu logarithmieren wird die abhängige Variable folgendermaßen. Wir gehen auf Tranformieren > Variable berechnen.

Daraufhin öffnet sich das kommende Fenster:

Hierbei geben wir unter Zielvariable gehalt_log und unter numerischer Ausdruck ln(gehalt) ein. Das Fenster sieht nun folgend aus:

Hierauf bestätigen wir mit OK. Neben der Umwandlung der abhängigen Variablen ist es auch denkbar, dies mit unabhängige Variable zu tun. Das Anfangsgehalt ist ebenfalls rechtsschief. Somit sollte diese Variable ebenfalls mit dem Logarithmus umgerechnet werden. Damit der Zusammenhang zwischen log. abhängiger Variablen und dieser wieder Linearisiert wird. Die Grafiken in dem kommende Abschnitt veranschaulichen das Gemeinte. Wie wir Streudiagramme in SPSS erzeugen erfahrt Ihr hier.

Das Modell ist korrekt spezifiziert bzw. Linearität

Kommende Grafik zeigt den Zusammenhang zwischen Anfangsgehalt und logarithmiertem Gehalt. Hier zeigt sich ein kurvenartiger Verlauf.

Diese Grafik zeigt demgegenüber das logarithmierte Anfangsgehalt gegenüber dem logarithmierten Gehalt. Hierbei zeigt sich klar ein linearer Zusammenhang. Weswegen das Anfangsgehalt ebenfalls logarithmiert wird.

Der Zusammenhang wurde damit linearisiert. Für die übrigen Variablen ist eine Transformation nicht notwendig. Wobei eine Prüfung analog erfolgt. Im Zusammenhang zu der Dummy-Variablen ist dieses Vorgehen nicht notwendig.

Eine schwäche von SPSS bei der Regression ist, das Tests auf eine korrekte Modellspezifikation nicht implementiert sind. Somit ist nur eine visuelle Prüfung der Linearität möglich. Für die meisten Anwendungen jedoch ausreichend.

Im Weiteren werden wir nun die Regression durchführen. Hierbei gehen wir auf Analysieren > Regression > linear

Es öffnet sich das folgende Menu

Wir fügen gehalt_log in Abhängige Variable und agehalt_log, dauer und mind in das Feld unabhängige Variablen.

Homoskedastizität und Normalverteilung

Zur Prüfung auf Homoskedastizität können in SPSS Residualplots betrachtet werden. Hierzu gehen Sie auf Diagramme, wodurch sich ein weiteres Fenster öffnet.

Nun fügen wir ZPRED in das Feld X und ZRESID in das Feld Y. Weiterhin machen wir einen Haken an Normalverteilungsdiagramm. Damit erhalten wir für später ein Quantil-Quantil-Plot der Residuen zur Prüfung der Normalverteilung in 4.

Nun bestätigen wir mit OK. Damit sind Methoden zur Prüfung der Homoskedastizität und der Normalverteilung ausgewählt. Wir drücken auf weiter und gelangen wieder in das Hauptmenü der linearen Regression.

Weiterhin könnte bei einer etwaigen Verletzung der Normalverteilungsannahme ein Bootstrap gemacht werden. Dies erfolgt unter dem entsprechenden Button in obigem Menu. Die spätere Darstellung der Ergebnisse wird jedoch zeigen, dass dies nicht nötig sein wird.

Die Störgrößen sind unkorreliert und keine Multikollinearität

Unter dem Button Statistiken lassen sich weitere Einstellungen für die Berechnungen vornehmen. Klicken wir hierauf, so öffnet sich das kommende Menu.

Hier machen wir einen Hacken an Durbin-Watson (Durbin-Watson-Test auf Autokorrelation) und Kollinearitätsdiagnose (Varianzinflationsfaktoren).

Wir bestätigen mit Weiter und landen wieder im Hauptmenu der Regression.

Nun bestätigen wir mit OK. Somit erscheinen im SPSS-Ausgabefenster die Ergebnisse der Regression, wie auch der Methoden zur Prüfung der Annahmen.

Ergebnisse

In obiger Tabelle stehen unter Anderem die Durbin-Watson-Statistik. Dabei handelt es sich um die Prüfgröße des entsprechenden Tests auf Autokorrelation. SPSS liefert hier keinen p-Wert, was für Verwirrung sorgen kann. Somit muss die Durbin-Watson-Statistik hier "deskriptiv" interpretiert werden. Werte zwischen 1 und 3 deuten dabei auf keine Autokorrelation hin. In unserem Falle mit 1,962 liegt kein Autokorrelationsproblem vor.

Die kommende Tabelle zeigt die zentralen Ergebnisse der Regression. Ebenfalls sind hier mit VIF die Varianzinflationsfaktoren dargestellt. Es zeigt sich, dass alle kleiner 10 sind. Somit ist von keinem Multikollinearitätsproblem auszugehen.

Kommende Grafik dient der Prüfung der Normalverteilungsannahme. Es zeigt sich, dass die Werte sich gut durch eine Linie beschreiben lassen. Somit kann die Normalverteilungsannahme als erfüllt betrachtet werden.

Abschließend dürfen wir unser Modell auf Homoskedastizität. In unterem Bild ist eine willkürliche und gleichmäßige Streuung der Residuen um Null zu erkennen. Somit kann von konstanten Varianzen der Fehlerterme, also Homoskedastizität, ausgegangen werden.

Zusammenfassung

Insgesamt konnten wir mit den obigen Annahmenprüfungen in SPSS ein valides Modell erstellen. Dabei haben wir die Annahmen in SPSS, wie folgt geprüft.

  • Linearität: Streudiagramme der abhängigen Variablen gegen die unabhängigen Variablen, Transformationen zwecks Linearisierung
  • Homoskedastizität: Residualplot, hier sollten die Punkte gleichmäßig streuen
  • Autokorrelation: Durbin-Watson-Test, Test-Statistik sollte zwischen 1 und 3 liegen
  • Normalverteilung: Transformation der abhängigen Variablen, Prüfung mittels P-P-Plot
  • Multkollinearität: Varianzinflationsfaktoren sollten kleiner 10 sein.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.