In diesem Artikel beschreiben wir, wie sich eine Regressionsanalyse in SPSS berechnen lässt.
Die Daten
Für die Analysen nutzen wir den systeminternen Datensatz customer_dbase.sav. Der Datensatz umfasst diverse Merkmale von N = 5000 Kunden. Hierbei wollen wir das logarithmierte Einkommen durch die Anzahl an Jahren bei dem aktuellen Arbeitgeber, das Alter in Jahren, die Jahre an Schulbildung, ob sich eine Person im Ruhestand befindet oder nicht, die Kreditkartenschulden in Tausend, ob jemand verheiratet ist oder nicht, ob jemand zur Miete oder im Eigentum lebt und Anzahl an Autos mittels einer linearen Regression erklären.
Die Analyse
Um eine Regressionsanalyse in SPSS durchzuführen gehen Sie aud Analysieren > Regression > Linear.
Nun öffnet sich das folgende Dialogfeld.
Wir möchten den Effekt von Alter in Jahren, Bildung in Jahren, der Beschäftigungdauer in Jahren bei dem aktuellen Arbeitgeber, dem Status des Ruhestands, ob eine Person gegegenüber ihrer Bank in Rückstand geraten ist und ob jemand zur Miete oder Eigentum wohnt auf das lograithmierte Einkommen untersuchen. Hierzu geben wir die entsprechenden Variablen in die Felder abhängige Variable und unabhängige Variablen, sodass das Dialogfeld, wie folgt ausschaut.
Nun drücken Sie auf Statistiken. Es öffnet sich das kommende Fenster.
Setzen Sie hier einen Haken jeweils bei Kollinearitätsdiagnose und Durbin-Watson, sodass das Fenster, wie folgt aussieht.
Drücken Sie nun auf Weiter. Wir befinden uns nun wieder im Hauptdialogfeld zur Regression.
Hier drücken nun auf Diagramme. Es öffnet sich das kommende Dialogfeld. Hier fügen Sie SDRESID in das Feld Y und ADJPRED in das Feld X. SDRESID steht hierbei für studentisierte Residuen und ADJPRED adjustierte Vorhergesagte Werte. Weiterhin setzen Sie einen Haken bei Normalverteilungsdiagramm.
Das Dialogfeld sieht nun wie folgt aus. Nun drücken Sie auf Weiter.
Sie befinden sich nun wieder im Hauptdialogfeld der linearen Regression. Nun drücken Sie auf OK. Es erscheinen nun einige Tabellen in der SPSS-Ausgabe.
Wir werden hier nur die wichtigsten Tabellen behandeln und erläutern. Zunächst ist das die Tabelle Modellzusammenfassung. Hierbei sind einige Kennzahlen in dieser Tabelle dargestellt. Die wichitgsten sind das korrigierte Bestimmtheitsmaß und die Durbin-Watson-Statistik. Das korrigierte Bestimmtheitsmaß beträgt hier 0,593. Somit werden durch die unabhängigen Variablen 59,3 % der Variant des logarithmierten Einkommens erklärt. Weiterhin betrug die Durbin-Watson-Statistik 1,99. Sie kann Werte zwischen 0 und 4 annehmen. Ein Wert von 2 entspricht hierbei völlig unkorrelierten Residuen. Je näher der Wert an 0 oder 4 kommt, desto stärker wird die Autokorrelation. Eine häufig verwendete Faustregel ist hierbei, dass die Statistik den einen Wert zwischen 1 und 3 aufweisen sollte, damit von einer nicht zustarken Autokorrelation ausgegangen werden kann.
Die nächste Tabelle zeigt das Ergebnis des F-Tests. Sie ist mit der Überschrift ANOVA versehen. Hierbei zeigt sich, dass der F-Test ein signifikantes Ergebnis liefert, F(6, 4993) = 1213,37, p = 0,000.
Die nächsten Tabelle zeigt die zentralen Ergebnisse der Regression. Sie ist mit Koeffizienten beschriftet. Es zeigt sich dabei, dass alle unabhängigen Variablen einen signifikanten Einfluss auf das lograithmierte Einkommen ausüben. Dabei ist der Effekt des Alters, der Bildungsjahre, die Dauer der Einstellung beim aktuellen Arbeitgeber, ein Rückstand bei der Bank und ob man zu Eigentum lebt. Der Rentenstatus hat einen negativen Effekt auf das logarithmiertet Einkommen. Weiterhin sind alle Varianzinflationsfaktoren kleiner als 10. Diese sind in der Spalte VIF dargestellt.
Eine weitere Tabelle mit diversen Kennzahlen ist die Tabelle Residuenstatistik. Hierbei ist die Spalte Cook-Distanz am interessantesten. Cook-Distanzen sind Kennzahlen, die für jeden Fall berechnet werden. Es wird mit diesen Kennzahlen auf einflussreiche Fälle geprüft. Faustregel für einen zu einflussreichen Fall ist eine Cook-Distanz von über 1.
Derzeit haben wir nur die Annahmen Autokorrelation und Multikollinearität der linearen Regression überprüft. Sie müssen also noch die Normalverteilung, Homoskedastizität und ob der Erwartungswert 0 beträgt überprüfen. Die Linearität werden wir hier als gegeben annehmen. Kommende Tabelle zeigt ein Q-Q-Plot (In SPSS P-P-Plot). Es ist zuerkennen, dass die Punkte annähernd auf einer Linie liegen. Damit ist von einer hohen Übereinstimmung mit einer Normalverteilung auszugehen. Somit kann die Normalverteilungsannahme als erfüllt betrachtet werden.
Kommende Grafik zeigt das Residualplot zur Regression. Es wird hieran überprüft, ob die Residuen homoskedastisch sind. In dem Bild deutet sich an, dass Heteroskedastizität vorliegen könnte. Auch scheint kein Erwatungswert von 0 vorzuliegen. Die Residuen streuen um den Wert 4. An dieser Stelle sollte das Modell noch etwas modifiziert werden. Dies ist jedoch in SPSS nur eingeschränkt möglich. Heteroskedastizitätskonsistzente Schätzer können beispielsweise über die Prozedur Allgemeines lineares Modell > Univariat berechnet werden. Die hiermit berechneten p-Werte können dann anstelle der p-Werte in der Tabelle Koeffizienten genutzt werden. Diese p-Werte sind konsistent gegen ein Heteroskedastizitätsproblem.