Annahmen der linearen Regression

Im Zusammenhang einer statistischen Beratung wird die lineare Regression häufig verwendet. Hierbei unterliegt diese diversen Annahmen:

  1. Das Modell ist korrekt spezifiziert, das heißt
    1. es ist linear in seinen Parametern (Achsenabschnitt und Steigung)
    2. es enthält alle relevanten Variablen
    3. die Zahl der zuschanzenden Parameter ist kleiner als die Anzahl an Beobachtungen.
  2. Die Fehlerterme des Modells haben Erwartungswert Null.
  3. Es besteht keine Korrelation zwischen den erklärenden Variablen und den Fehlern (Keine Endogenität)
  4. Die Fehler haben konstante Varianzen (Homoskedastizität)
  5. Die Störgrößen sind unkorreliert (keine Autokorrelation)
  6. Die Störgrößen sind normalverteilt
  7. Zwischen den unabhängigen Variablen existiert keine lineare Abhängigkeit (keine perfekte Multikollinearität)

1. Das Modell ist korrekt spezifiziert

Je nach genutzter Software kann die Überprüfung dieser Annahme unterschiedlich bis gar nicht erfolgen. In R, wie auch in Stata, sind beispielsweise diverse Tests zur Prüfung auf Linearität, korrekte Modellspezifikation und Tests auf vergessene Variablen (omited variable bias) implementiert. Im Falle einer Nutzung von SPSS sind in der Software keine Signifkanztest enthalten, die Annahme 1 testen.

Prüfung linearer Zusammenhänge

Deskriptiv erfolgt die Prüfung der Linearität durch Streudiagramme. Sie sehen vier verschiedene Beispiele für eine Vielzahl an denkbaren Zusammenhängen.

Hierbei sind zum einen ein linearer, ein nicht-linearer Zusammenhang und zwei lineare Zusammenhänge mit Strukturbrüchen dargestellt. Strukturbrüche lassen sich mittels des Chow-Test untersuchen. Im Falle von Strukturbrüchen ist es denkbar die Regressionen für Teilstichproben, welche am Strukturbruch gesplittet wurden, durchzuführen.

Häufigster Umgang mit nicht-linearen Zusammenhängen sind Transformationen. Dabei lässt sich vor allem der Zusammenhang oben rechts gut mit einer Transformation linearisieren. Wie wir in der kommenden Abbildung sehen. Nach der Umrechnung der Variablen X mit der Quadratwurzel zeigt sich ein linearer Zusammenhang zwischen Y und der Quadratwurzel aus X.

Je nach Zusammenhang sind verschiedenen Umwandlungen denkbar. Häufig genutzte Umformungen sind dabei der Logarithmus, Expoentialfunktion, Kehrwert, beliebige Potenzen und Wurzeln.

2. Fehlerterme haben Erwartungswert Null

Wurden keine relevanten Variablen ausgelassen. Dann umfasst die Störvariable nur zufällige Einflüsse. Dabei unterstellt ein Regressionsmodell, dass diese Schwankungen sich im Mittel aufheben. Sie sind also Null. Mathematisch haben die Fehlerterme Erwartungswert Null.

Ein systematischer Fehler spiegelt sich hingegen in systematischen Einflüssen der Störgrößen wieder. Der systematische Messfehler geht dabei in die Regressionskonstante über. Diese ist bei einer Verletzung der Annahme verzerrt. Da die Konstante in den meisten Anwendung von keinem Interesse ist, wird eine Verletzung dieser Annahme häufig nicht stören. Somit ist eine Überprüfung dieser Annahme in praktischen Anwendungen häufig nicht Relevanz.

Eine Überprüfung der Annahme über den Mittelwert der Residuen ist hingegen hinfällig. Auf Grund der mathematischen Eigenschaften der kleinsten Quadrate Methode haben die Residuen eines geschätzten Regressionsmodells immer einen Mittelwert nahe Null. Vielmehr liefert ein Test auf korrekte Modellspezifikation eine Methode diese Annahme zu überprüfen.

3. Keine Endogenität

Vor allem bei ökonometrischen Anwendungen stellt Endogenität ein häufig auftretendes Problem dar. Endogenität liegt vor, wenn eine Korrelation zwischen erklärenden Variablen und den Fehlern vorhanden ist. Zur Prüfung auf Endogenität existieren diverse Tests.

Ursachen für Endogenität sind:

  • Verzerrung durch vergessene Variablen (omitted variable bias)
  • simultane Kausalität, das heißt mehrere Gleichungen beschreiben den Zusammenhang
  • Messfehler in der abhängigen Variablen
  • Autokorrelation mit der endogenen unabhängigen Variablen
  • Unbeobachtete Heterogenität (sog. Individualeffekte)
  • etc.

Ein Umgang mit Endogenität sind die sogenannten Instrumentenvariablenschätzungen. Bei Individualeffekten kann ein Panel-Modell konsistente Schätzungen liefern.

4. Homoskedastizität

Zur Prüfung auf Heteroskedastizität existieren diverse Signifikantests. Weiterhin eignen sich grafische Hilfsmittel zur Prüfung auf Heteroskedastizität. Hierbei werden die Residuen in einem Streudiagramm visuell beurteilt. Typische Bilder für Heteroskedastizität bzw. Homoskedastizität sind in der kommenden Grafik zu betrachten.

Wir erkennen oben links ein Bild für Homoskedastizität. Die Streuung bleibt hier über das Bild nahezu konstant. Die übrigen drei Bilder zeigen Beispiele für heteroskedastische Fehler. Es zeigt sich jeweils eine Veränderung der Streuung der Residuen. Dies deutet auf eine ungleiche Varianz der Fehler hin und somit Heteroskedastizität.

Liegt Heteroskedastizität vor, so sind die p-Werte der Koeffizienten des Modells verzerrt. Mittels heteroskedastizitätskonsistenten Schätzern können dann unverzerrte p-Werte ermittelt werden.

5. Keine Autokorrelation

Autokorrelation liegt vor, wenn die Residuen untereinander korrelieren. Typischerweise tritt sie häufig bei Zeitreihen auf. Im ihrem Falle sind die Abweichungen von der Regressionsgeraden nicht mehr zufällig. Vielmehr weichen sie beispielsweise in ihrer Richtung von den Abweichungen des vorangegangenen Beobachtungswert ab.

Zur Prüfung liegen Signifikantests vor. Ebenfalls kann die Prüfung mittels grafischer Hilfsmittel erfolgen. Es gibt zwei grundlegende Typen von Autokorrelation. Dabei hängen die Residuen entweder positiv oder negativ voneinander ab. Somit wird von positiver und negativer Autokorrelation gesprochen. Im Falle einer positiven Autokorrelation liegen benachbarte Residuen vom Wert her nahe aneinander. Bei negativer Autokorrelation schwanken die Werte der benachbarten Residuen sehr. Beispiele für positive und negative Autokorrelation sind in der nächsten Abbildung zu sehen.

Autokorrelation sorgt für verzerrte p-Werte. Liegt sie vor, so lassen sich die p-Werte mittels sogenannter Heteroskedastizitäts- und Autokorrelationskonsistenten Schätzern (HAC-Schätzer, Sandwich-Estimator) stabilisieren.

6. Die Fehler sind normalverteilt

Diese Annahme wird benötigt, um die Koeffizienten des Modells auf Signifikanz zu testen. Es stellt sich somit die Frage: Wie prüfe ich auf Normalverteilung bzw. wie sichere ich mich bei Verletzung ab?

Signifikanztests

Die Überprüfung der Normalverteiltheit kann dabei über Signifikanztests erfolgen. Hierbei ist jedoch bei großen Stichproben eher von abzusehen. Denn die Tests liefern bei großen Stichproben und leichten Abweichungen von einer Normalverteilung dennoch häufig ein signifikantes Ergebnis. In den meisten Fällen ist die grafische Analyse zur Prüfung der Normalverteilung vorzuziehen. Ab einer gewissen Stichprobengröße kann auch, wie folgt vorgegangen werden.

Argumentation über den zentralen Grenzwertsatz

Ab einer Stichprobengröße von N > 30 pro unabhängige Variable kann auch mittels des zentralen Grenzwertsatzes argumentiert und eine annähernde Normalverteilung angenommen werden.

Grafische Überprüfung der Normalverteilung und Transformationen

Als geeignete grafische Hilfsmittel dienen Histogramme oder Quantil-Quantil-Plots. Kommende Grafik zeigt die Verteilung von normalverteilten und t-verteilten Residuen. Die Verteilungen sind als Histogramme dargestellt. Es zeigt sich, dass beide Verteilungen symmetrisch sind und sich daher sehr ähneln. Jedoch ist zu erkennen, dass der Wertebereich der Residuen im Falle der t-Verteilung breiter ist. In der Statistik wird in diesem Zusammenhang davon gesprochen, dass die t-Verteilung schwerere Ränder besitzt als die Normalverteilung. Wie sich das bei einer Verteilungsprüfung äußert sehen wir später in den Quantil-Quantil-Plots.

Kommende Abbildung zeigt uns eine Verteilung der Residuen, welche rechtsschief ist. Sie weicht damit stark von einer Normalverteilung ab (obere Grafik). Ähnlich wie bei der Linearität, können geeignete Transformationen hier helfen. Weiterhin ist in der kommenden Abbildung die Verteilung der logarithmierten Werte zu betrachten (unter Grafik). Diese ist symmetrisch ist und streut in einem Bereich von - 4 bis 4. Damit ähnelt sie einer Normalverteilung, sodass in diesem Falle eine Transformation der abhängigen Variablen mit dem Logarithmus für eine symmetrische Verteilung sorgt.

Kommende Grafik zeigt nochmals die obigen Verteilungen verglichen mit der Normalverteilung. Hierbei handelt es sich um Quantil-Quantil-Plots. Dabei werden die Quantile der Normalverteilung und die der Residuen gegeneinander abgetragen.

Folgende Idee steckt hinter dieser Grafik: Stammen die Residuen aus einer Normalverteilung, so müssen auch die Quantile der Residuen mit denen einer Normalverteilung übereinstimmen. Bei perfekter Übereinstimmung konzentrieren sich die Punkte in der Grafik demnach auf einer Geraden. Im Falle der normalverteilten Residuen (links) zeigt sich eine nahezu perfekte Übereinstimmung. Bei der t-Verteilung (Mitte) hingegen zeigen sich die oben beobachteten Abweichung an den Rändern. Jene erschienen im Histogramm weniger stark als hier im Quantil-Quantil-Plot. Extreme Abweichungen von einer Normalverteilung sind demgegenüber bei der Untersuchung der rechtsschiefen Verteilung zu betrachten.

Bootstrap

Der letzte Ausweg, wenn eine Transformation nicht für den gewünschten Symmetrieeffekt sorgt und nicht über die große Stichprobe argumentiert werden, ist ein sogenannter Bootstrap. Dieser kann ebenfalls bei einer Verletzung der Normalverteilungannahme erfolgen. Bei einem Bootstrap werden aus der vorliegenden Stichprobe Zufallsstichproben generiert, aus welchen dann die stabilisierten p-Werte berechnet werden. Die Zufallsstichproben heißen Replikationen. Je mehr Replikationen benutzt werden um so stabiler sind die gebootstrapten p-Werte. In der Praxis werden Bootstraps meist mit 1000 oder 5000 Replikationen berechnet. Generell ist zu empfehlen die Anzahl an Replikationen zu erhöhen, je stärker die Verteilung der Residuen von einer Normalverteilung abweicht.

7. Keine perfekte Multikollinearität

Was ist Multikollinearität?

Im Falle von Multikollinearität überschneiden sich die Streuungen der unabhängigen Variablen. Damit gehen Redundanzen in den Daten und weniger Informationen einher. Weiterhin bedeutet dies, dass sich die vorliegenden Informationen nicht mehr eindeutig den entsprechenden Variablen zuordnen lassen. Die kommende Grafik illustriert den Zusammenhang.

Im ersten Falle (links) ist die Überschneidung der Streuungen der unabhängigen Variablen gering Nur ein kleiner Teil der Information (schwarze Fläche) kann nicht eindeutig zugeordnet werden. Hingegen ist bei starker Multikollinearität (rechts) die schwarze Fläche viel größer. Dies bedeutet wenig Information der erklärenden Einflüsse wird demnach richtig zugeordnet.

Wie entsteht Multikollinearität und wie prüfe ich darauf?

Multikollinearität entsteht häufig, wenn erklärende Variablen hoch miteinander korrelieren. Somit kann als erster Anhaltspunkt für Multikollinearität die Korrelationsmatrix der erklärenden Einflüsse verwendet werden. Weiterhin existieren Kennzahlen, wie die sogenannten Varianzinflationsfaktoren (VIF). Die VIF werden für alle unabhängigen Variablen bestimmt. Sind diese Kennzahlen zu groß, so deutet dies auf Multikollinearität hin. Ein ernstzunehmendes Multkollinearitätsproblem liegt vor, falls mindestens ein VIF größer 10 ist.

Umgang mit Multikollinearität

Es gibt mehrere Methoden mit Multikollinearität umzugehen. Zum einen können Variablen, die sie verursachen, entfernt werden. Handelt es sich um wichtige Einflussgrößen, so ist ein einfache Entfernen häufig nicht erstrebenswert. Weiterhin können aus den entsprechenden Variablen neue Variablen gebildet werden. Dabei kann zum Beispiel das Verhältnis gebildet und in das Modell aufgenommen werden. So werden die inhaltlich relevanten Einflüsse weiter aufgenommen. Jedoch sollte die neu gebildeten Variablen einen sinnvollen und inhaltlich erklärbaren Einfluss darstellen.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.