Interpretieren von OLS-Ergebnissen

Die vom OLS-Regressionswerkzeug generierte Ausgabe schließt Folgendes ein:

Jede dieser Ausgaben wird angezeigt, und ist nachfolgend als Reihe von Schritten zum Ausführen der OLS-Regression und zum Interpretieren von OLS-Ergebnissen beschrieben.

(A) Öffnen Sie das Ergebnisfenster, falls erforderlich. Führen Sie dann das Werkzeug OLS aus:

OLS-Werkzeug
Dialogfeld "Kleinste Quadrate (Ordinary Least Squares)"

Sie müssen eine Eingabe-Feature-Class mit einem Feld für eindeutige ID, die abhängige Variable, die modelliert/erläutert/vorhergesagt werden soll, sowie alle erklärenden Variablen des Modells angeben. Sie müssen auch einen Pfadnamen für die Ausgabe-Feature-Class bereitstellen und optional Pfadnamen für die Koeffizienten-Ausgabetabelle und die Diagnose-Ausgabetabelle angeben.

Die primäre Ausgabe ist der OLS-Zusammenfassungsbericht, der im Ergebnisfenster ausgegeben wird. Klicken Sie im Fenster Ergebnisse mit der rechten Maustaste auf den Eintrag Meldungen, und wählen Sie Ansicht aus, um den OLS-Zusammenfassungsbericht in einem Meldungsdialogfeld anzuzeigen. Wenn Sie dieses Werkzeug im Vordergrund ausführen, wird der Zusammenfassungsbericht auch im Statusdialogfeldfeld angezeigt.

(B) Sehen Sie sich den statistischen Bericht mithilfe der unten aufgeführten Schritte an:

OLS-Bericht
Komponenten des statistischen OLS-Berichts

Analysieren des statistischen Berichts

  1. Bewerten Sie die Modell-Performance. Sowohl der Wert "Multiple R-Squared" als auch der Wert "Adjusted R-Squared" sind Messwerte für die Modell-Performance. Zulässige Werte können zwischen 0,0 und 1,0 liegen. Der Adjusted R-Squared-Wert ist immer etwas niedriger als der Multiple R-Squared-Wert, da er die Modellkomplexität (die Anzahl von Variablen) im Verhältnis zu den Daten widerspiegelt, und ist daher ein etwas genauerer Wert für die Modell-Performance. Durch Hinzufügen einer zusätzlichen erklärenden Variablen zum Modell kann der Multiple R-Squared-Wert erhöht werden, der Adjusted R-Squared-Wert wird dabei jedoch reduziert. Angenommen, Sie erstellen ein Regressionsmodell für Wohnungseinbrüche (die Anzahl der Wohnungseinbrüche, die mit den einzelnen Zählbezirken verknüpft ist, ist die abhängige Variable, y). Ein Adjusted R-Squared-Wert von 0,84 würde darauf hinweisen, dass das Modell (die mithilfe der linearen Regression modellierten erklärenden Variablen) ca. 84 Prozent der Variation in der abhängigen Variable erklärt. Anders ausgedrückt: Das Modell gibt zu ca. 84 % Aufschluss über die Wohnungseinbrüche.
    Modell-Performance
    R-Squared-Werte quantifizieren die Modell-Performance
  2. Bewerten Sie die einzelnen erklärenden Variablen im Modell: Koeffizient, Wahrscheinlichkeit oder robuste Wahrscheinlichkeit und Varianzinflationsfaktor (VIF). Der Koeffizient für jede erklärende Variable spiegelt sowohl die Stärke als auch den Typ der Beziehung wider, die die erklärende Variable zu der abhängigen Variable hat. Wenn das dem Koeffizienten zugewiesene Zeichen negativ ist, ist die Beziehung negativ (je größer beispielsweise die Entfernung vom Stadtzentrum ist, desto kleiner ist die Anzahl der Wohnungseinbrüche). Wenn das Zeichen positiv ist, ist die Beziehung positiv (je größer beispielsweise die Bevölkerung ist, desto größer ist auch die Anzahl der Wohnungseinbrüche). Koeffizienten werden in denselben Einheiten wie ihre zugeordneten erklärenden Variablen angegeben (ein Koeffizient von 0,005, der einer Variablen zugeordnet ist, die die Bevölkerungszahl darstellt, kann als 0,005 Personen interpretiert werden). Der Koeffizient spiegelt die erwartete Änderung in der abhängigen Variable pro Einheitenänderung in der zugeordneten erklärenden Variable wider und bewirkt, dass alle anderen Variablen konstant bleiben (für jede zusätzliche Person im Zählbezirk wird beispielsweise ein Anstieg von 0,005 bei den Wohnungseinbrüchen erwartet, alle anderen erklärenden Variablen bleiben konstant). Der T-Test wird verwendet, um zu beurteilen, ob eine erklärende Variable statistisch signifikant ist oder nicht. Die Nullhypothese besagt, dass der Koeffizient für alle Zwecke gleich Null ist (und infolgedessen dem Modell NICHT hilft). Wenn die Wahrscheinlichkeit oder die robuste Wahrscheinlichkeit (p-Werte) sehr niedrig ist, ist auch die Wahrscheinlichkeit, dass der Koeffizient tatsächlich Null ist, sehr gering. Wenn der Koenker-Test (siehe unten) statistisch signifikant ist, verwenden Sie die robusten Wahrscheinlichkeiten, um zu beurteilen, ob die erklärende Variable statistisch signifikant ist. Statistisch signifikante Wahrscheinlichkeiten sind mit einem Sternchen (*) gekennzeichnet. Eine erklärende Variable, die mit einem statistisch signifikanten Koeffizienten verknüpft ist, ist für das Regressionsmodell wichtig, wenn die Theorie/der gesunde Menschenverstand eine gültige Beziehung mit der abhängigen Variable unterstützen, wenn die modellierte Beziehung in erster Linie linear ist und wenn die Variable nicht mit anderen erklärenden Variablen im Modell redundant ist. Mit dem VIF wird die Redundanz unter erklärenden Variablen gemessen. Als Faustregel gilt, dass mit VIF-Werten verknüpfte erklärende Variablen, die größer als ca. 7,5 sind, vom Regressionsmodell (einzeln) entfernt werden müssen. Wenn Sie beispielsweise eine Bevölkerungsvariable (die Anzahl der Personen) und eine Beschäftigungsvariable (die Anzahl der angestellten Personen) im Regressionsmodell haben, sind diese mit großer Wahrscheinlichkeit mit großen VIF-Werten verknüpft, die angeben, dass beide dieser Variablen dasselbe aussagen; eine der Variablen sollte daher aus dem Modell entfernt werden.
    Analyse der erklärenden Variablen
    Beurteilen Sie, welche Variablen statistisch signifikant sind.
  3. Bewerten Sie die Modellsignifikanz. Sowohl die Joint F-Statistic als auch die Joint Wald Statistic sind Messwerte für die allgemeine statistische Signifikanz von Modellen. Die Joint F-Statistic ist nur vertrauenswürdig, wenn die Koenker-(BP)-Statistik (siehe unten) nicht statistisch signifikant ist. Wenn die Koenker-(BP)-Statistik signifikant ist, ziehen Sie die Joint Wald Statistic heran, um die allgemeine Modellsignifikanz zu ermitteln. Die Nullhypothese für beide Tests besagt, dass die erklärenden Variablen im Modell NICHT wirksam sind. Ein Konfidenzniveau von 95 Prozent bedeutet, dass ein p-Wert (Wahrscheinlichkeit) kleiner als 0,05 ein statistisch signifikantes Modell angibt.
    Allgemeine Modell-Performance
    Bewerten Sie die allgemeine statistische Signifikanz des Regressionsmodells.
  4. Bewerten Sie Stationarität. Die Koenker (BP) Statistic (Koenkers t-verteilte Breusch-Pagan-Statistik) ist ein Test zur Ermittlung, ob die erklärenden Variablen im Modell über eine konsistente Beziehung zur abhängigen Variable sowohl im geographischem Raum als auch im Datenbereich verfügen. Wenn das Modell im geographischem Raum konsistent ist, verhalten sich die durch die erklärenden Variablen dargestellten räumlichen Prozesse genauso wie überall im Untersuchungsgebiet (die Prozesse sind stationär). Wenn das Modell im Datenbereich konsistent ist, ändert sich die Variation in der Beziehung zwischen vorhergesagten Werten und jeder erklärenden Variable nicht bei Änderungen der Beträge der erklärenden Variablen (es gibt keine Heteroskedastizität im Modell). Angenommen, Sie möchten Verbrechen vorhersagen, und eine der erklärenden Variablen ist das Einkommen. Das Modell würde eine problematische Heteroskedastizität aufweisen, wenn die Vorhersagen für Orte mit niedrigem mittleren Einkommen genauer wären als für Orte mit hohem mittleren Einkommen. Die Nullhypothese für diesen Test ist, dass das Modell stationär ist. Ein Konfidenzniveau von 95 Prozent bedeutet, dass ein p-Wert (Wahrscheinlichkeit) kleiner als 0,05 Heteroskedastizität und/oder Nichtstationarität angibt. Wenn die Ergebnisse dieses Tests statistisch signifikant sind, ziehen Sie die robusten Koeffizientenstandardfehler und Wahrscheinlichkeiten heran, um die Effektivität der einzelnen erklärenden Variablen zu bewerten. Regressionsmodelle mit statistisch signifikanter Nichtstationarität sind häufig gute Kandidaten für die GWR-Analyse (Geographisch gewichtete Regression).
    Bewerten Sie Stationarität und Heteroskedastizität.
    Bewerten der Stationarität: Wenn der Koenker-Test statistisch signifikant (*) ist, ziehen Sie die robusten Wahrscheinlichkeiten heran, um zu beurteilen, ob die erklärenden Variablenkoeffizienten statistisch signifikant sind.
  5. Bewerten Sie die Modelltendenz. Die Jarque-Bera-Statistik gibt an, ob die Residuen (die beobachteten/bekannten abhängigen Variablenwerte abzüglich der vorhergesagten/geschätzten Werte) normal verteilt sind. Die Nullhypothese für diesen Test besagt, dass die Residuen normal verteilt sind, wenn Sie also ein Histogramm für diese Residuen erstellen würden, würden diese eine klassische Glockenkurve bzw. eine Gauß'sche Verteilung darstellen. Wenn der p-Wert (Wahrscheinlichkeit) für diesen Test klein ist (z. B. kleiner als 0,05 für ein Konfidenzniveau von 95), werden die Residuen nicht normal verteilt, was auf ein verzerrtes Modell hinweist. Wenn zudem eine statistisch signifikante räumliche Autokorrelation Ihrer Residuen vorliegt (siehe unten), liegt die Ursache für die Verzerrung möglicherweise an einer falschen Angabe des Modells (eine wichtige Modellvariable fehlt). Ergebnisse aus einem falsch angegebenen OLS-Modell sind nicht vertrauenswürdig. Ein statistisch signifikanter Jarque-Bera-Test kann auch vorgenommen werden, wenn Sie versuchen, nicht lineare Beziehungen zu modellieren, wenn Ihre Daten einflussreiche Ausreißer enthalten oder wenn eine starke Heteroskedastizität vorliegt (siehe oben).
    Jarque-Bera-Ergebnisse
    Bewerten Sie die Modelltendenz.
  6. Bewerten Sie räumliche Autokorrelation von Residuen. Führen Sie immer das Werkzeug Räumliche Autokorrelation (Morans I) in den Regressionsresiduen aus, um sicherzustellen, dass sie räumlich zufällig sind. Die statistisch signifikante Cluster-Bildung von hohen und/oder niedrigen Residuen (zu niedrige und zu hohe Vorhersagen für das Modell) deuten darauf hin, dass eine wichtige Variable in dem Modell fehlt (falsche Angabe). OLS-Ergebnisse sind nicht vertrauenswürdig, wenn das Modell falsch angegeben ist.
    Bewerten Sie die räumliche Verteilung von Regressionsresiduen.
    Stellen Sie mit dem Werkzeug für die räumliche Autokorrelation sicher, dass Modellresiduen nicht räumlich autokorreliert werden.
  7. Überprüfen Sie schließlich den Abschnitt Wie Regressionsmodelle ungültig werden im Dokument Grundlagen zur Regressionsanalyse als Test, ob das OLS-Regressionsmodell falsch angegeben ist. Beachten Sie auch, dass es einen Abschnitt mit dem Titel "Hinweise zur Interpretation" am Ende des OLS-Statistikberichts gibt, der Ihnen hilft, den Zweck der einzelnen statistischen Tests im Kopf zu behalten.
    Hinweise zur Interpretation
    Der OLS-Bericht umfasst Hinweise, mit denen Sie die Diagnoseausgabe interpretieren können.

(C) Überprüfen Sie die Residuen der Ausgabe-Feature-Class. Zu hohe und zu niedrige Vorhersagen für ein korrekt angegebenes Regressionsmodell werden zufällig verteilt. Die Cluster-Bildung für zu hohe und/oder zu niedrige Vorhersagen deutet darauf hin, dass mindestens eine wichtige erklärende Variable fehlt. Überprüfen Sie die Muster in den Modellresiduen, um zu sehen, ob sie Anhaltspunkte zu den fehlenden Variablen liefern. Manchmal kann das Ausführen einer Hot Spot-Analyse in Regressionsresiduen hilfreich sein, um die umfangreicheren Muster in zu hohen und zu niedrigen Vorhersagen zu sehen.

Zugeordnete Residuen
OLS-Ausgabe: Zugeordnete Residuen

(D) Zeigen Sie die Koeffizienten- und Diagnosetabellen an. Das Erstellen der Koeffizienten- und Diagnosetabellen ist optional. Während Sie sich in dem Prozess des Suchens eines effektiven Modells befinden, können Sie die Entscheidung treffen, diese Tabellen nicht zu erstellen. Der Modellerstellungsprozess ist iterativ, und wahrscheinlich werden Sie viele verschiedene Modelle (unterschiedliche erklärende Variablen) ausprobieren, bis Sie sich für einige gute Modelle entscheiden. Sie können das Korrigiert Akaike Information Criterion (AICc) in dem Bericht verwenden, um unterschiedliche Modelle zu vergleichen. Das Modell mit dem kleineren AICc-Wert ist das bessere Modell (d. h. unter Berücksichtigung der Modellkomplexität bietet das Modell mit dem kleineren AICc-Wert eine bessere Übereinstimmung mit den beobachteten Daten. Sie sollten immer die Koeffizienten- und Diagnosetabellen für die finalen OLS-Modelle erstellen, um die wichtigsten Elemente des OLS-Berichts zu erfassen, einschließlich der Liste der im Modell verwendeten erklärenden Variablen mit ihren Koeffizienten, Standardfehlern und Wahrscheinlichkeiten sowie Ergebnisse für jeden Diagnosetest. Die Diagnosetabelle enthält eine Beschreibung jedes Tests mit einigen Richtlinien für die Interpretation von Testergebnissen.

Koeffiziententabelle
Die Koeffiziententabelle enthält berechnete Koeffizienten, Standardfehler und Variablenwahrscheinlichkeiten.
OLS-Diagnose
Die Diagnosetabelle enthält Hinweise zum Interpretieren von Modelldiagnose-Testergebnissen.
AIC-Ausgabe
Sie können den AICc-Werte zum Vergleichen von Regressionsmodellen verwenden.

Zusätzliche Ressourcen

Es gibt eine Reihe von guten Ressourcen, über die Sie mehr über die OLS Regression erfahren können. Beginnen Sie, indem Sie die Dokumentation Grundlagen zur Regressionsanalyselesen und/oder das kostenlose einstündige Webseminar des ESRI Virtual Campus zum Thema Grundlagen zur Regressionsanalyse anschauen. Arbeiten Sie dann ein Lernprogramm zur Regressionsanalyse durch.


7/10/2012