Annahmen der linearen Regression

Im Zusammenhang einer statistischen Beratung wird die lineare Regression häufig verwendet. Hierbei unterliegt diese diversen Annahmen:

  1. Das Modell ist korrekt spezifiziert, das heißt
    1. es ist linear in seinen Parametern (Achsenabschnitt und Steigung)
    2. es enthält alle relevanten Variablen
    3. die Zahl der zuschanzenden Parameter ist kleiner als die Anzahl an Beobachtungen.
  2. Die Fehlerterme des Modells haben Erwartungswert Null.
  3. Es besteht keine Korrelation zwischen den erklärenden Variablen und den Fehlern (Keine Endogenität)
  4. Die Fehler haben konstante Varianzen (Homoskedastizität)
  5. Die Störgrößen sind unkorreliert (keine Autokorrelation)
  6. Die Störgrößen sind normalverteilt
  7. Zwischen den unabhängigen Variablen existiert keine lineare Abhängigkeit (keine perfekte Multikollinearität)

1. Das Modell ist korrekt spezifiziert

Je nach genutzter Software kann die Überprüfung dieser Annahme unterschiedlich bis gar nicht erfolgen. In R, wie auch in Stata, sind beispielsweise diverse Tests zur Prüfung auf Linearität, korrekte Modellspezifikation und Tests auf vergessene Variablen (omited variable bias) implementiert. Im Falle einer Nutzung von SPSS sind in der Software keine Signifkanztest enthalten, die Annahme 1 testen.

Prüfung linearer Zusammenhänge

Deskriptiv erfolgt die Prüfung der Linearität durch Streudiagramme. Sie sehen vier verschiedene Beispiele für eine Vielzahl an denkbaren Zusammenhängen.

Hierbei sind zum einen ein linearer, ein nicht-linearer Zusammenhang und zwei lineare Zusammenhänge mit Strukturbrüchen dargestellt. Strukturbrüche lassen sich mittels des Chow-Test untersuchen. Im Falle von Strukturbrüchen ist es denkbar die Regressionen für Teilstichproben, welche am Strukturbruch gesplittet wurden, durchzuführen.

Häufigster Umgang mit nicht-linearen Zusammenhängen sind Transformationen. Dabei lässt sich vor allem der Zusammenhang oben rechts gut mit einer Transformation linearisieren. Wie wir in der kommenden Abbildung sehen. Nach der Umrechnung der Variablen X mit der Quadratwurzel zeigt sich ein linearer Zusammenhang zwischen Y und der Quadratwurzel aus X.

Je nach Zusammenhang sind verschiedenen Umwandlungen denkbar. Häufig genutzte Umformungen sind dabei der Logarithmus, Expoentialfunktion, Kehrwert, beliebige Potenzen und Wurzeln.

2. Fehlerterme haben Erwartungswert Null

Wurden keine relevanten Variablen ausgelassen. Dann umfasst die Störvariable nur zufällige Einflüsse. Dabei unterstellt ein Regressionsmodell, dass diese Schwankungen sich im Mittel aufheben. Sie sind also Null. Mathematisch haben die Fehlerterme Erwartungswert Null.

Ein systematischer Fehler spiegelt sich hingegen in systematischen Einflüssen der Störgrößen wieder. Der systematische Messfehler geht dabei in die Regressionskonstante über. Diese ist bei einer Verletzung der Annahme verzerrt. Da die Konstante in den meisten Anwendung von keinem Interesse ist, wird eine Verletzung dieser Annahme häufig nicht stören. Somit ist eine Überprüfung dieser Annahme in praktischen Anwendungen häufig nicht Relevanz.

Eine Überprüfung der Annahme über den Mittelwert der Residuen ist hingegen hinfällig. Auf Grund der mathematischen Eigenschaften der kleinsten Quadrate Methode haben die Residuen eines geschätzten Regressionsmodells immer einen Mittelwert nahe Null. Vielmehr liefert ein Test auf korrekte Modellspezifikation eine Methode diese Annahme zu überprüfen.

3. Keine Endogenität

Vor allem bei ökonometrischen Anwendungen stellt Endogenität ein häufig auftretendes Problem dar. Endogenität liegt vor, wenn eine Korrelation zwischen erklärenden Variablen und den Fehlern vorhanden ist. Zur Prüfung auf Endogenität existieren diverse Tests.

Ursachen für Endogenität sind:

  • Verzerrung durch vergessene Variablen (omitted variable bias)
  • simultane Kausalität, das heißt mehrere Gleichungen beschreiben den Zusammenhang
  • Messfehler in der abhängigen Variablen
  • Autokorrelation mit der endogenen unabhängigen Variablen
  • Unbeobachtete Heterogenität (sog. Individualeffekte)
  • etc.

Ein Umgang mit Endogenität sind die sogenannten Instrumentenvariablenschätzungen. Bei Individualeffekten kann ein Panel-Modell konsistente Schätzungen liefern.

4. Homoskedastizität

Zur Prüfung auf Heteroskedastizität existieren diverse Signifikantests. Weiterhin eignen sich grafische Hilfsmittel zur Prüfung auf Heteroskedastizität. Hierbei werden die Residuen in einem Streudiagramm visuell beurteilt. Typische Bilder für Heteroskedastizität bzw. Homoskedastizität sind in der kommenden Grafik zu betrachten.

Wir erkennen oben links ein Bild für Homoskedastizität. Die Streuung bleibt hier über das Bild nahezu konstant. Die übrigen drei Bilder zeigen Beispiele für heteroskedastische Fehler. Es zeigt sich jeweils eine Veränderung der Streuung der Residuen. Dies deutet auf eine ungleiche Varianz der Fehler hin und somit Heteroskedastizität.

Liegt Heteroskedastizität vor, so sind die p-Werte der Koeffizienten des Modells verzerrt. Mittels heteroskedastizitätskonsistenten Schätzern können dann unverzerrte p-Werte ermittelt werden.

5. Keine Autokorrelation

Autokorrelation liegt vor, wenn die Residuen untereinander korrelieren. Typischerweise tritt sie häufig bei Zeitreihen auf. Im ihrem Falle sind die Abweichungen von der Regressionsgeraden nicht mehr zufällig. Vielmehr weichen sie beispielsweise in ihrer Richtung von den Abweichungen des vorangegangenen Beobachtungswert ab.

Zur Prüfung liegen Signifikantests vor. Ebenfalls kann die Prüfung mittels grafischer Hilfsmittel erfolgen. Es gibt zwei grundlegende Typen von Autokorrelation. Dabei hängen die Residuen entweder positiv oder negativ voneinander ab. Somit wird von positiver und negativer Autokorrelation gesprochen. Im Falle einer positiven Autokorrelation liegen benachbarte Residuen vom Wert her nahe aneinander. Bei negativer Autokorrelation schwanken die Werte der benachbarten Residuen sehr. Beispiele für positive und negative Autokorrelation sind in der nächsten Abbildung zu sehen.

Autokorrelation sorgt für verzerrte p-Werte. Liegt sie vor, so lassen sich die p-Werte mittels sogenannter Heteroskedastizitäts- und Autokorrelationskonsistenten Schätzern (HAC-Schätzer, Sandwich-Estimator) stabilisieren.

6. Die Fehler sind normalverteilt

Diese Annahme wird benötigt, um die Koeffizienten des Modells auf Signifikanz zu testen. Es stellt sich somit die Frage: Wie prüfe ich auf Normalverteilung bzw. wie sichere ich mich bei Verletzung ab?

Signifikanztests

Die Überprüfung der Normalverteiltheit kann dabei über Signifikanztests erfolgen. Hierbei ist jedoch bei großen Stichproben eher von abzusehen. Denn die Tests liefern bei großen Stichproben und leichten Abweichungen von einer Normalverteilung dennoch häufig ein signifikantes Ergebnis. In den meisten Fällen ist die grafische Analyse zur Prüfung der Normalverteilung vorzuziehen. Ab einer gewissen Stichprobengröße kann auch, wie folgt vorgegangen werden.

Argumentation über den zentralen Grenzwertsatz

Ab einer Stichprobengröße von N > 30 pro unabhängige Variable kann auch mittels des zentralen Grenzwertsatzes argumentiert und eine annähernde Normalverteilung angenommen werden.

Grafische Überprüfung der Normalverteilung und Transformationen

Als geeignete grafische Hilfsmittel dienen Histogramme oder Quantil-Quantil-Plots. Kommende Grafik zeigt die Verteilung von normalverteilten und t-verteilten Residuen. Die Verteilungen sind als Histogramme dargestellt. Es zeigt sich, dass beide Verteilungen symmetrisch sind und sich daher sehr ähneln. Jedoch ist zu erkennen, dass der Wertebereich der Residuen im Falle der t-Verteilung breiter ist. In der Statistik wird in diesem Zusammenhang davon gesprochen, dass die t-Verteilung schwerere Ränder besitzt als die Normalverteilung. Wie sich das bei einer Verteilungsprüfung äußert sehen wir später in den Quantil-Quantil-Plots.

Kommende Abbildung zeigt uns eine Verteilung der Residuen, welche rechtsschief ist. Sie weicht damit stark von einer Normalverteilung ab (obere Grafik). Ähnlich wie bei der Linearität, können geeignete Transformationen hier helfen. Weiterhin ist in der kommenden Abbildung die Verteilung der logarithmierten Werte zu betrachten (unter Grafik). Diese ist symmetrisch ist und streut in einem Bereich von - 4 bis 4. Damit ähnelt sie einer Normalverteilung, sodass in diesem Falle eine Transformation der abhängigen Variablen mit dem Logarithmus für eine symmetrische Verteilung sorgt.

Kommende Grafik zeigt nochmals die obigen Verteilungen verglichen mit der Normalverteilung. Hierbei handelt es sich um Quantil-Quantil-Plots. Dabei werden die Quantile der Normalverteilung und die der Residuen gegeneinander abgetragen.

Folgende Idee steckt hinter dieser Grafik: Stammen die Residuen aus einer Normalverteilung, so müssen auch die Quantile der Residuen mit denen einer Normalverteilung übereinstimmen. Bei perfekter Übereinstimmung konzentrieren sich die Punkte in der Grafik demnach auf einer Geraden. Im Falle der normalverteilten Residuen (links) zeigt sich eine nahezu perfekte Übereinstimmung. Bei der t-Verteilung (Mitte) hingegen zeigen sich die oben beobachteten Abweichung an den Rändern. Jene erschienen im Histogramm weniger stark als hier im Quantil-Quantil-Plot. Extreme Abweichungen von einer Normalverteilung sind demgegenüber bei der Untersuchung der rechtsschiefen Verteilung zu betrachten.

Bootstrap

Der letzte Ausweg, wenn eine Transformation nicht für den gewünschten Symmetrieeffekt sorgt und nicht über die große Stichprobe argumentiert werden, ist ein sogenannter Bootstrap. Dieser kann ebenfalls bei einer Verletzung der Normalverteilungannahme erfolgen. Bei einem Bootstrap werden aus der vorliegenden Stichprobe Zufallsstichproben generiert, aus welchen dann die stabilisierten p-Werte berechnet werden. Die Zufallsstichproben heißen Replikationen. Je mehr Replikationen benutzt werden um so stabiler sind die gebootstrapten p-Werte. In der Praxis werden Bootstraps meist mit 1000 oder 5000 Replikationen berechnet. Generell ist zu empfehlen die Anzahl an Replikationen zu erhöhen, je stärker die Verteilung der Residuen von einer Normalverteilung abweicht.

7. Keine perfekte Multikollinearität

Was ist Multikollinearität?

Im Falle von Multikollinearität überschneiden sich die Streuungen der unabhängigen Variablen. Damit gehen Redundanzen in den Daten und weniger Informationen einher. Weiterhin bedeutet dies, dass sich die vorliegenden Informationen nicht mehr eindeutig den entsprechenden Variablen zuordnen lassen. Die kommende Grafik illustriert den Zusammenhang.

Im ersten Falle (links) ist die Überschneidung der Streuungen der unabhängigen Variablen gering Nur ein kleiner Teil der Information (schwarze Fläche) kann nicht eindeutig zugeordnet werden. Hingegen ist bei starker Multikollinearität (rechts) die schwarze Fläche viel größer. Dies bedeutet wenig Information der erklärenden Einflüsse wird demnach richtig zugeordnet.

Wie entsteht Multikollinearität und wie prüfe ich darauf?

Multikollinearität entsteht häufig, wenn erklärende Variablen hoch miteinander korrelieren. Somit kann als erster Anhaltspunkt für Multikollinearität die Korrelationsmatrix der erklärenden Einflüsse verwendet werden. Weiterhin existieren Kennzahlen, wie die sogenannten Varianzinflationsfaktoren (VIF). Die VIF werden für alle unabhängigen Variablen bestimmt. Sind diese Kennzahlen zu groß, so deutet dies auf Multikollinearität hin. Ein ernstzunehmendes Multkollinearitätsproblem liegt vor, falls mindestens ein VIF größer 10 ist.

Umgang mit Multikollinearität

Es gibt mehrere Methoden mit Multikollinearität umzugehen. Zum einen können Variablen, die sie verursachen, entfernt werden. Handelt es sich um wichtige Einflussgrößen, so ist ein einfache Entfernen häufig nicht erstrebenswert. Weiterhin können aus den entsprechenden Variablen neue Variablen gebildet werden. Dabei kann zum Beispiel das Verhältnis gebildet und in das Modell aufgenommen werden. So werden die inhaltlich relevanten Einflüsse weiter aufgenommen. Jedoch sollte die neu gebildeten Variablen einen sinnvollen und inhaltlich erklärbaren Einfluss darstellen.

Korrelationsanalyse in Stata

Eine häufig angewendete Methode bei der Stata-Auswertung ist die Korrelationsanalyse. Hierzu laden wir uns den Beispiel Datensatz 1978 Automobile Data durch den folgenden Befehl.

Dieser enthält Daten zu N = 74 Autosmodellen aus dem Jahre 1978. Folgende Merkmale beinhaltet der Datensatz.

Wir untersuchen im Folgenden den Zusammenhang zwischen Gewicht weight und Länge length der Automodelle. Dies schauen wir uns zunächst mit den kommenden Befehlen grafisch an.

Dadurch erhalten wir das Streudiagramm zwischen Länge und Gewicht, wie auch die eingezeichnete Regressionsgerade zu diesem Zusammenhang.

Es zeigt sich ein nahezu linearer Zusammenhang. Schwerere Automodelle sind durch eine tendenziell längere Karosserie gekennzeichnet. Mit dem Befehl pwcorr und der Option sig erhalten wir als Stata-Kommando die Korrelation nach Pearson und den p-Wert des Tests auf Signifikanz der Korrelation. Sie ist stark positiv und signifikant, r = 0,95, p = 0,000. Auf Grund der großen Stichprobe von N = 74 wird auf eine Prüfung der Normalverteilungsannahme verzichtet.

Korrelationsanalyse in R

In unserem letzten Beitrag wurde gezeigt, wie eine SPSS-Auswertung der Korrelation erfolgt. In diesem Beitrag wird erläutert, wie es in R geht.

Erzeuge Zufallszahlen, welche korreliert werden sollen

Zunächst erzeugen wir uns Zufallszahlen. Hierzu legen wir mit dem Befehl set.seed() den Startwert des Zufallsgenerators fest. Hierzu wird eine beliebige Zahl innerhalb der Klammer angegeben. Dies dient der Reproduzierbarkeit der Analysen für Aussenstehende. Weiterhin erzeugen wir uns 100 standardnormalverteilte Zufallszahlen (Zeile 5 im Code). Das Objekt y (Zeile 8 im Code) in Form einer Geradengleichung mit Achsenabschnitt 4,3 und Steigung 6 in Abhängigkeit von x und einem t-verteilten "Fehler" erzeugt. Dabei ist x standardnormalverteilt. Somit steht y auf Grund der Gleichung in einem linearen Zusammenhang zu x.

Eine erste grafische Untersuchung des Zusammenhangs

Die obige Befehlskette erzeugt uns das kommende Streudiagramm. Hierbei ist zunächst ein annähernd linearer Zusammenhang zwischen x und y zu erkennen. Weiterhin fällt ein Wertepaar auf. Dieses wurde als roter Punkt in der Grafik gekennzeichnet. Hierbei weicht jenes Beobachtungspaar stark von den übrigen ab. Somit deklarieren wir es hier als "Ausreißer". Weiterhin wurden mit der blauen Linie die Regressionsgerade für alle 100 Beobachungspaare in der Grafik ergänzt. Mit der roten Linie wurde die Regressionsgeraden ohne das Ausreißerpaar eingezeichnet.

Was ist zu erkennen? Durch den Ausreißer wird die Steigung der Regressionsgeraden steiler geschätzt. Dies ist in der kommenden Grafik nochmals besser zu erkennen. Welche Auswirkungen hat dieser Ausreißer auf die Korrelation? Dazu berechnen wir jene zum einen mit und zum anderen ohne Ausreißerpaar

Bestimmung der Korrelation

Zur Bestimmung einer Korrelation sind verschiedene Funktionen in R implementiert. Wir verwenden hier cor.test() aus dem Pakte stats.

Mit dem Ausreißer ergibt sich eine signifikante und positive, nach Cohen's Konventionen, starke Korrelation, r = 0,65, p = 0,000. Folgendes Ergebnis erhalten wir, wenn wir die Korrelation ohne den Ausreißer berechnen.

Die Korrelation steigt an auf r = 0,89, p = 0,000. Sie ist positiv und signifikant. Weiterhin ist das eine starke Korrelation. Was ist passiert? Der Korrelationskoeffizient nach Pearson ist ein Maß zu Beurteilung eines lineare Zusammenhangs zwischen zwei metrischen Merkmalen. Das heißt mittels der Korrelation wird untersucht, wie gut sich zwei Wertereihen durch eine Gerade beschreiben lassen. Durch Entfernung des Ausreißers lässt sich die neue Punktwolke also besser durch eine Gerade beschreiben als zuvor.

Diese Analysen der Korrelation sind exemplarisch erfolgt. Auf Grund der hohen Stichprobengröße wird die Normalverteilungsannahme als erfüllt betrachtet. Andernfalls wird sie mittels gängigen Tests oder grafischen Hilfsmittel untersucht.

Alternativ zur Ausreißerentfernung kann man auch eine Rangkorrelation verwenden. Für die Berechnung der Rangkorrelation werden die metrischen Daten in Ränge umgewandelt. Auf Grund dieser Rangbildung liegt der Effekt extremer Beobachtungen nicht mehr vor. Diese Eigenschaft bezeichnen wir in der Statistik mit Robustheit. Statistische Kennzahlen, welche sich durch Ausreißer nicht beeinflussen heißen robust. In unserem Fall ergibt sich bei Verwendung von der Korrelation nach Spearman folgendes Ergebnis.

Hier ergibt sich eine starke und positive Rangkorrelation,  \rho = 0,87, p = 0,000 . Der Wert ist deutlich näher an dem berechneten Wert ohne Ausreißer. Dies ist auf die Robustheit der Korrelation nach Spearman zurückzuführen.

Korrelationsanalyse in SPSS

Die Basis-Methode zur Untersuchung eines Zusammenhangs zweier Merkmale ist die Korrelation. Die Wahl eines geeigneten Korrelationskoeffizienten ist hierbei von der Skalierung der benutzten Merkmale abhängig. Für mindestens intervallskalierte Merkmalen ist die Korrelation nach Pearson die geeignete Wahl. Bei mindestens ordinalskalierten Merkmalen sind die Korrelation nach Spearman oder Kendall geeignet.

Die Daten

Im Weiteren wird die Untersuchung auf einen Zusammenhang zwischen zwei Merkmalen an Hand von SPSS vorgeführt.

Bei obigem Datensatz handelt es sich um die Ausgaben für Werbung advert und die Einnahmen durch Verkäufe sales. Die Daten liegen für N = 24 Unternehmen vor. Wir wollen den Zusammenhang zwischen Ausgaben für Werbung und Verkäufen der Unternehmen untersuchen. Beide Variablen sind intervallskaliert. Somit wird die Pearson Korrelation verwendet. Zunächst schauen wir uns den Zusammenhang jedoch grafisch an. Dies dient einer ersten Überprüfung der Beziehung der Merkmale. Ebenfalls sind "Ausreißer" auf diese Weise erkennbar.

Eine erste grafische Betrachtung des Zusammenhangs

Zur Erstellung des Streudiagramm öffnen Sie über die SPSS-Programmleiste Grafik > Klassische Dialogfelder > Streu-/Punktdiagramm.

Daraufhin öffnet sich das folgende Dialogfeld. Klicken Sie auf definieren. Somit nutzen wir das Einfache Streudiagramm (Voreinstellung).

Es öffnet sich das kommende Fenster.

Jetzt definieren Sie die Einnahmen durch Verkäufe als Y-Achse und die Ausgaben an Werbung als X-Achse. Das Dialogfeld sieht nun wie in dem kommenden Bild aus.

Nun drücken Sie auf OK. Das Streudiagramm erscheint in dem SPSS-Ausgabefenster.

Das obige Bild zeigt den Zusammenhang zwischen Ausgaben für Werbung und den Einnahmen durch Verkäufe. Das Bild zeigt klar einen steigenden Zusammenhang. Mit steigenden Ausgaben für Werbung steigen auch die Verkäufe.

Berechnung der Korrelation

Im Weiteren bestimmen wir nun die Stärke der Korrelation. Hierzu gehen wir auf Analysieren > Korrelation > Bivariat.

Es öffnet sich das folgende Fenster. Die Voreinstellung ist die Pearson-Korrelation Somit müssen wir hier nichts einstellen. Weiterhin fügen wir die Merkmale in das Feld Variablen ein.

Somit sieht das Programmfeld nach diesem Schritt wie in kommendem Bild aus. Nun bestätigen wir mit OK. Damit starten unsere Berechnungen.

Es erscheint in dem SPSS-Ausgabefenster folgende Tabelle.

Zum einen sehen wir hier den Korrelationskoeffizienten zwischen Verkäufen und Ausgaben für Werbung. Er beträgt r = 0,916. Dies ist eine positive Korrelation. Nach Cohen ergeben sich folgende Richtwerte zur Beurteilung der Stärke der Pearson Korrelation. So gelten Zusammenhänge mit r > 0,1 als schwach, r > 0,3 als mittelstark und r > 0,5 als starke Korrelationen. Somit haben wir hier eine starke positive Korrelation beobachten können. Weiterhin ist in der Tabelle eine Zeile Signifikanz (2-seitig). Hierbei handelt es sich um den p-Wert zu dem Test auf Signifikanz der Korrelation. Rein Formal wird hier die Nullhypothese "Die Korrelation ist Null" gegen die Alternative "Die Korrelation ist ungleich Null" getestet. Wir prüfen also in diesem Beispiel zweiseitig. Abschließend beinhaltet die obige Tabelle noch das N. Also die Stichprobengröße. Hier hatte wir 24 Unternehmen.

Abschließende Worte

In diesem Kontext wird nochmals auf den Test der Korrelation eingegangenen. Dieser setzt voraus, dass die Merkmale bivariat normalverteilt sind. Dies lässt sich im Allgemeinen nicht prüfen. Weiterhin folgt aus einer univariaten Normalverteilung der Merkmale nicht, dass jene auch bivariate normalverteilt sind voraus. Umgekehrt gilt es jedoch. Somit reicht es rein formal auch nicht die univariate Normalverteilung zu prüfen. Ab einem N größer 30 kann hingegen, auf Grund des zentralen Grenzwertsatzes, die Normalverteilung als erfüllt betrachtet werden. In unserem Beispiel wurde auf die Prüfung der Voraussetzungen des statistischen Tests verzichtet.