Interpretieren von GWR-Ergebnissen
Die vpm Werkzeug Geographisch gewichtete Regression (GWR) generierte Ausgabe schließt Folgendes ein:
- Ausgabe-Feature-Class
- Optionale Koeffizienten-Raster-Oberflächen
- Bericht über gesamte Modellergebnisse im Meldungsfenster
- Zusätzliche Tabelle, in der Modellvariablen und Diagnoseergebnisse angezeigt werden
- Vorhergesagte Ausgabe-Feature-Class
Jede der oben erwähnten Ausgaben wird angezeigt, und ist nachfolgend als Reihe von Schritten zum Ausführen von GWR und zum Interpretieren von GWR-Ergebnissen beschrieben. Die Regressionsanalyse beginnt in der Regel mit Kleinste Quadrate (Ordinary Least Squares) (OLS). Weitere Informationen finden Sie unter Grundlagen zur Regressionsanalyse und Interpretieren von OLS-Regressionsergebnissen. Ein häufiger Ansatz für die Regressionsanalyse besteht darin, vor dem Verschieben nach GWR das bestmögliche OLS-Modell zu identifizieren. Dieser Ansatz stellt den Kontext für die Schritte unten bereit.
(A) Öffnen Sie das Ergebnisfenster, falls erforderlich. Nachdem Sie ein oder mehrere potenzielle Regressionsmodelle mit dem Werkzeug OLS-Regression identifiziert haben, führen Sie diese Modelle mit GWR aus. Schließen Sie alle regionalen Binärvariablen (Dummy-Variablen) aus dem GWR-Modell aus, da diese Probleme mit der lokalen Multikollinearität verursachen und für GWR nicht erforderlich sind. Sie müssen eine Eingabe-Feature-Class mit der abhängigen Variable, die modelliert/erläutert/vorhergesagt werden soll, sowie alle erklärenden Variablen des Modells angeben. Sie müssen auch einen Pfadnamen für die Ausgabe-Feature-Class, einen Kernel-Typ (entweder fest oder adaptiv) und eine Bandbreitenmethode (AIC, CV oder ein vom Benutzer bereitgestellter Wert) angeben. Wenn Sie für die Bandbreitenmethode "Bandbreitenparameter" auswählen, müssen Sie eine bestimmte Entfernung (für den Kernel-Typ FIXED) oder eine bestimmte Anzahl der Nachbarn (für den Kernel-Typ ADAPTIVE) angeben. Sie können auch Werte für die optionalen Parameter angeben, die in der Dokumentation des GWR-Werkzeugs beschrieben sind. Ein besonders interessanter optionaler Parameter ist der Koeffizienten-Raster-Workspace. Wenn Sie einen Ordnerpfadnamen für diesen Parameter angeben, erstellt das Werkzeug "GWR" Koeffizienten-Raster-Oberflächen (nachfolgend beschrieben) für das Modell-Intercept und jede erklärende Variable.
(B) Überprüfen Sie den statistischen Zusammenfassungsbericht, der im Ergebnisfenster ausgegeben wird. Klicken Sie im Fenster Ergebnisse mit der rechten Maustaste auf den Eintrag Meldungen, und wählen Sie Ansicht aus, um den GWR-Zusammenfassungsbericht in einem Meldungsdialogfeld anzuzeigen. Wenn Sie dieses Werkzeug im Vordergrund ausführen, wird der Zusammenfassungsbericht auch im Statusdialogfeldfeld angezeigt. Nachfolgend werden alle gemeldeten Diagnosen näher beschrieben.
- Bandbreite oder Nachbarn: Dies ist die Bandbreite oder Anzahl von Nachbarn, die für jede lokale Schätzung verwendet wird; dies ist wahrscheinlich der wichtigste Parameter für die geographisch gewichtete Regression. Er steuert das Maß der Glättung im Modell. In der Regel lassen Sie das Programm einen Wert für die Bandbreite oder die Anzahl von Nachbarn auswählen, indem entweder AICc (das korrigierte Akaike Information Criterion) oder CV (Cross Validation) für den Parameter Bandbreitenmethode ausgewählt wird. Bei beiden Optionen wird versucht, eine optimale feste Entfernung oder eine optimale adaptive Anzahl von Nachbarn zu ermitteln. Da die Kriterien für "optimal" für AICc und CV unterschiedlich sind, wird häufig ein anderer optimaler Wert verwendet. Sie können auch eine exakte feste Entfernung oder eine bestimmte Anzahl von Nachbarn angeben, indem Sie BANDBREITENPARAMETER für die Bandbreitenmethode auswählen.
Die Bandbreiteneinheiten sind von dem angegebenen Kernel-Typ abhängig. Wenn Sie FIXED auswählen, spiegelt der Bandbreitenwert eine Entfernung in den gleichen Einheiten wie die Eingabe-Feature-Class wider (wenn die Eingabe-Feature-Class beispielsweise mit UTM-Koordinaten projiziert wird, ist die gemeldete Entfernung in Metern angegeben). Wenn Sie ADAPTIVE auswählen, ändert sich die Bandbreitenentfernung gemäß der räumlichen Dichte der Features in der Eingabe-Feature-Class. Die Bandbreite wird eine Funktion der Anzahl der nächsten Nachbarn, sodass jede lokale Schätzung auf der gleichen Anzahl von Features basiert. Anstelle einer bestimmten Entfernung wird die Anzahl der für die Analyse verwendeten Nachbarn gemeldet.
- ResidualSquares: Dies ist die Summe der Residuen im Quadrat im Modell (das Residuum ist die Differenz zwischen einem beobachteten Y-Wert und dessen geschätzten Wert, der vom GWR-Modell zurückgegeben wird). Je kleiner dieser Wert ist, desto besser stimmt das GWR-Modell mit den beobachteten Daten überein. Dieser Wert wird in einer Reihe anderer Diagnosemesswerten verwendet.
- EffectiveNumber: Dieser Wert spiegelt einen Kompromiss zwischen der Varianz der angepassten Werte und der Tendenz in den Koeffizientenschätzungen wider und steht im Zusammenhang mit der Bandbreitenauswahl. Wie sich die Bandbreite dem Unendlichen nähert, nähern sich die geographischen Gewichtungen für jede Beobachtung der Zahl 1, und die Koeffizientenschätzungen liegen ganz nah an den Schätzungen für ein globales OLS-Modell. Bei sehr großen Bandbreiten nähert sich die effektive Anzahl von Koeffizienten der tatsächlichen Anzahl; lokale Koeffizientenschätzungen weise eine kleine Varianz auf, sind aber sehr verzerrt. Umgekehrt nähern sich die geographischen Gewichtungen für jede Beobachtung Null an, wenn sich die Bandbreite Null nähert, mit der Ausnahme des Regressionspunkts selbst. Bei sehr kleinen Bandbreiten entspricht die effektive Anzahl von Koeffizienten der Anzahl von Beobachtungen, und lokale Koeffizientenschätzungen weisen eine große Varianz, jedoch nur eine geringe Verzerrung auf. Die effektive Anzahl wird verwendet, um eine Reihe von Diagnosemessungen zu berechnen.
- Sigma: Dieser Wert ist die Quadratwurzel der normalisierten Restsummen von Quadraten, wobei die Restsumme von Quadraten durch die effektiven Freiheitsgrade des Residuums dividiert wird. Dies ist die geschätzte Standardabweichung für die Residuen. Kleinere Werte dieser Statistik sind vorzuziehen. Sigma wird fürAICc-Berechnungen verwendet.
- AICc: Dies ist ein Messwert der Modell-Performance, der für das Vergleichen unterschiedlicher Regressionsmodelle hilfreich ist. Unter Berücksichtigung der Modellkomplexität bietet das Modell mit dem niedrigeren AICc-Wert eine bessere Übereinstimmung mit den beobachteten Daten. AICc ist kein absoluter Messwert für die Qualität der Übereinstimmung, ist aber hilfreich für das Vergleichen von Modellen mit unterschiedlichen erklärenden Variablen, solange sie die gleiche abhängige Variable betreffen. Wenn sich die AICc-Werte für zwei Modelle um mehr als 3 unterscheiden, wird das Modell mit den niedrigeren AICc als besser betrachtet. Das Vergleichen des AICc-Werts aus GWR mit dem AICc-Wert aus OLS ist eine Möglichkeit, um die Vorteile des Umsteigens von einem globalen Modell (OLS) auf ein lokales Regressionsmodell (GWR) zu beurteilen.
- R2: R-Squared ist ein Messwert für die Qualität der Übereinstimmung. Der Wert variiert von 0.0 bis 1.0, wobei höhere Werte vorzuziehen sind. Er kann als Anteil der abhängigen Variablenvarianz durch das Regressionsmodell interpretiert werden. Der Nenner für die Berechnung von R2 ist die Summe von abhängigen Variablenwerten im Quadrat. Durch Hinzufügen einer zusätzlichen erklärenden Variable zum Modell wird nicht der Nenner, sondern der Zähler geändert; dadurch entsteht der Eindruck, dass die Modelleignung verbessert wird, was aber möglicherweise nicht der Fall ist. Weitere Informationen erhalten Sie weiter unten unter "Adjusted R-Squared".
- R2Adjusted: Aufgrund des oben beschriebenen Problems mit dem R2-Wert, werden durch Berechnungen des angepassten R-Squared-Werts der Zähler und der Nenner nach ihren Freiheitsgraden normalisiert. Dadurch wird die Anzahl der Variablen in einem Modell ausgeglichen, und folglich ist der angepasste R2-Wert fast immer kleiner als der R2-Wert. Indem Sie diese Anpassung vornehmen, geht jedoch die Interpretation des Werts als Anteil der erläuterten Varianz verloren. In GWR ist die effektive Anzahl von Freiheitsgraden eine Funktion der Bandbreite, deshalb ist die Anpassung im Vergleich zu einem globalen Modell wie OLS möglicherweise stark ausgeprägt. Aus diesem Grund wird der AICc zum Vergleichen von Modellen vorgezogen.
Diagnosen im Meldungsfenster werden in eine zusätzliche Tabelle (_supp) zusammen mit Zusammenfassungsinformationen zu Modellvariablen und Parametern geschrieben.
(C) Überprüfen Sie die Residuen der Ausgabe-Feature-Class.
Zu hohe und zu niedrige Vorhersagen für ein korrekt angegebenes Regressionsmodell werden zufällig verteilt. Die Cluster-Bildung für zu hohe und/oder zu niedrige Vorhersagen deutet darauf hin, dass mindestens eine wichtige erklärende Variable fehlt. Überprüfen Sie die Muster in den OLS und GWR-Modellresiduen, um zu sehen, ob sie Anhaltspunkte zu den fehlenden Variablen liefern. Führen Sie das Werkzeug Räumliche Autokorrelation (Morans I) in den Regressionsresiduen aus, um sicherzustellen, dass sie räumlich zufällig sind. Die statistisch signifikante Cluster-Bildung von hohen und/oder niedrigen Residuen (zu niedrige und zu hohe Vorhersagen für das Modell) deuten darauf hin, dass das GWR-Modell falsch angegeben wurde.
Zusätzlich zu Regressionsresiduen umfasst die Ausgabe-Feature-Class Felder für beobachtete und vorhergesagte y-Werte, eine Bedingungsnummer (cond), Local R2, erklärende Variablenkoeffizienten und Standardfehler:
- Bedingungsnummer: Diese Diagnose wertet die lokale Multikollinearität aus. Wenn eine starke lokale Multikollinearität vorhanden ist, werden die Ergebnisse instabil. Mit Bedingungsnummern verknüpfte Ergebnisse größer 30 sind möglicherweise unzuverlässig.
- Local R2: Diese Werte bewegen sich zwischen 0,0 und 1,0 und geben an, wie gut das lokale Regressionsmodell mit den beobachteten y-Werten übereinstimmt. Sehr niedrige Werte geben an, dass die Performance des lokalen Modells schlecht ist. Das Zuordnen der lokalen R2-Werte, um zu sehen, welche GWR-Vorhersagen korrekt und welche falsch sind, kann Aufschluss über wichtige Variablen geben, die möglicherweise im Regressionsmodell fehlen.
- Vorhergesagt: Dies sind die geschätzten (oder angepassten) y-Werte, die von GWR berechnet werden.
- Residuen: Um die Residuen zu erhalten, werden die angepassten y-Werte von den beobachteten y-Werten subtrahiert. Standardisierte Residuen haben den Mittelwert Null und eine Standardabweichung von 1. Ein mit Cold-to-Hot-Rendering gerenderte Karte wird automatisch dem Inhaltsverzeichnis hinzugefügt, wenn GWR in ArcMap ausgeführt wird.
- Koeffizientenstandardfehler: Diese Werte messen die Zuverlässigkeit jeder Koeffizientenschätzung. Die Übereinstimmung mit diesen geschätzten Wert ist höher, wenn die Anzahl von Standardfehlern im Verhältnis zu den tatsächlichen Koeffizientenwerten klein ist. Eine große Anzahl von Standardfehlern kann auf Probleme mit der lokalen Multikollinearität hinweisen.
(D) Überprüfen Sie die Koeffizienten-Raster-Oberflächen, die von GWR (und/oder mit Polygondaten, einem abgestuften Farben-Rendering der Koeffizienten auf Feature-Ebene) erstellt wurden, um die regionale Variation in den erklärenden Variablen des Modells besser zu verstehen. Wenn Sie GWR zum Modellieren einer Variablen (der abhängigen Variablen) verwenden, möchten Sie im Allgemeinen Werte vorhersagen oder die Faktoren verstehen, die Ergebnisse mit abhängigen Variablen beeinflussen. Sie möchten jedoch auch überprüfen, wie räumlich konsistent (stationär) Beziehungen zwischen der abhängigen Variablen und den einzelnen erklärenden Variablen im Untersuchungsgebiet sind. Durch Überprüfen der Koeffizientenverteilung als Oberfläche können Sie anzeigen, wie viel Variation an welchen Stellen vorhanden ist. Sie können Ihr Verständnis dieser Variation auch zum Informieren der Methode verwenden:
- Statistisch signifikante globale Variablen mit geringer regionaler Variation informieren die regionsweite Methode.
- Statistisch signifikante globale Variablen mit starker regionaler Variation informieren die lokale Methode.
- Einige Variablen sind möglicherweise nicht global signifikant, da sie in einigen Regionen positiv und in anderen Regionen negativ verknüpft sind.
(E) Karten-GWR-Vorhersagen. GWR kann für Vorhersagen verwendet werden, wenn es auf Referenzdaten angewendet wird. Geben Sie eine Feature-Class an, die alle erklärenden Variablen für Positionen enthält, bei denen die abhängige Variable unbekannt ist. GWR kalibriert die Regressionsgleichung mit bekannten abhängigen Variablenwerten in der Eingabe-Feature-Class und erstellt dann eine neue Ausgabe-Feature-Class mit abhängigen Variablenschätzungen.