Grundlagen zur Regressionsanalyse
Die Toolbox Spatial Statistics stellt effektive Werkzeuge zum Quantifizieren von räumlichen Mustern bereit. Mit dem Werkzeug Hot Spot-Analyse können Sie beispielsweise Fragen wie die folgenden stellen:
- Gibt es Orte in den USA, an denen Personen immer sehr jung sterben?
- Wo sind die Hot Spots für Verbrechen, Notrufe (siehe Abbildung unten) oder Brände?
- Wo wird ein höherer Anteil von Verkehrsunfällen als erwartet in einer Stadt verzeichnet?
In den obigen Fragen wurde immer nach dem "Wo?" gefragt. Die nächste logische Frage für die obigen Analysetypen lautet "Warum?".
- Warum gibt es Orte in den USA, an denen Personen immer sehr jung sterben? Was könnte die Ursache hierfür sein?
- Können die Eigenschaften von Orten, an denen es viele Verbrechen, Notrufe oder Brände gibt, so modelliert werden, dass diese Ereignisse reduziert werden können?
- Welche Faktoren tragen zu einer höheren Rate an Verkehrsunfällen als erwatet bei? Gibt es Auswirkungen auf Methoden oder Maßnahmen zur Abschwächung, durch die Verkehrsunfälle in der Stadt und/oder in bestimmten Gebieten mit hohem Verkehrsaufkommen reduziert werden können?
Die Werkzeuge im Toolset Modellierungen räumlicher Beziehungen helfen bei der Beantwortung dieser zweiten Gruppe von Warum-Fragen. Zu diesen Werkzeugen gehören Kleinste Quadrate (Ordinary Least Squares) (OLS)-Regression und Geographisch gewichtete Regression.
Räumliche Beziehungen
Mit der Regressionsanalyse können Sie räumliche Beziehungen modellieren, untersuchen und erkunden und die Faktoren hinter beobachteten räumlichen Mustern erklären. Sie möchten sicherlich verstehen, warum Menschen in bestimmten Regionen des Landes früh sterben oder welche Faktoren zu einer höheren Diabetesrate als erwartet beitragen? Durch Modellieren von räumlichen Beziehungen kann die Regressionsanalyse jedoch auch für Vorhersagen verwendet werden. Durch Modellieren der Faktoren, die zu Universitätsabschlussraten beitragen, können Sie beispielsweise Vorhersagen über die Fertigkeiten von Arbeitskräften und Ressourcen in der Zukunft machen. Sie können die Regression auch verwenden, um Niederschläge oder die Luftqualität in Fällen vorherzusagen, in denen die Interpolation aufgrund eines Mangels an Überwachungsstationen ungenügend ist (es fehlen beispeilsweise häufig Niederschlagsmesser an Gebirgskämmen und in Tälern).
OLS ist die bekannteste Regressionstechnik. Dies ist auch der richtige Startpunkt für alle räumlichen Regressionsanalysen. OLS bietet ein globales Modell der Variablen oder des Prozesses, die bzw. den Sie versuchen, zu verstehen oder vorherzusagen (früher Tod/Niederschlag); es erstellt eine einzelne Regressionsgleichung zur Darstellung dieses Prozesses. Die geographisch gewichtete Regression (GWR) ist eine von mehreren räumlichen Regressionstechniken, die in der Geographie und anderen Disziplinen zunehmend Einsatz findet. GWR stellt ein lokales Modell der Variablen oder des Prozesses bereit, die bzw. den Sie versuchen, zu verstehen oder vorherzusagen, indem eine Regressionsgleichung an jedes Feature im Dataset angepasst wird. Wenn diese Methoden korrekt eingesetzt werden, liefern sie leistungsstarke und zuverlässige Statistiken für das Untersuchen und Schätzen linearer Beziehungen.
Lineare Beziehungen sind entweder positiv oder negativ. Wenn Sie feststellen, dass die Anzahl der Such- und Rettungsaktionen mit steigender Tagestemperatur zunimmt, handelt es sich um eine positive Beziehung; es besteht eine positive Korrelation. Eine andere Art, diese positive Beziehung auszudrücken, besteht darin, zu sagen, dass die Such- und Rettungsaktionen abnehmen, wenn die Tagestemperatur abnimmt. Wenn Sie umgekehrt jedoch feststellen, dass die Anzahl der Verbrechen sinkt, wenn die Anzahl von Polizisten zunimmt, die in einem Gebiet Streife fahren, handelt es sich um eine negative Beziehung. Sie können diese negative Beziehung auch ausdrücken, indem Sie angeben, dass die Anzahl der Verbrechen zunimmt, wenn die Anzahl der Streife fahrenden Polizisten abnimmt. In der Abbildung unten sind sowohl positive als auch negative Beziehungen sowie der Fall, in dem es zwischen zwei Variablen keine Beziehung gibt, dargestellt:
Mit Korrelationsanalysen und den oben dargestellten zugehören Abbildungen wird die Stärke der Beziehung zwischen zwei Variablen getestet. Regressionsanalysen gehen jedoch einen Schritt weiter: sie versuchen, den Grad darzustellen, zu dem eine oder mehrere Variablen potenziell eine positive oder negative Änderung in einer anderen Variablen verursachen können.
Anwendungen für die Regressionsanalyse
Die Regressionsanalyse kann für eine Vielzahl von Anwendungen verwendet werden:
- Modellierung von Abgängerraten von Oberschulen, um die Faktoren besser verstehen zu können, die dazu beitragen, dass weniger Schüler frühzeitig von der Schule abgehen.
- Das Modellieren von Verkehrsunfällen als eine Funktion der Geschwindigkeit, der Straßenbedingungen, des Wetters usw., um Methoden zu informieren, die auf eine Reduzierung von Unfällen abzielen.
- Modellierung von Sachschäden aufgrund von Bränden als Funktion von Variablen, z. B. das Maß der Beteiligung der Feuerwehr, die Reaktionszeit oder der Sachwert. Wenn Sie feststellen, dass die Reaktionszeit der Hauptfaktor ist, müssen Sie möglicherweise mehr Feuerwehrwachen einrichten. Wenn Sie feststellen, dass die Beteiligung der Hauptfaktor ist, müssen Sie eventuell eine Erhöhung der Arbeitsgeräte und der Anzahl von Feuerwehrleuten in Betracht ziehen.
Es gibt drei Hauptgründe für die Verwendung einer Regressionsanalyse:
- Die Modellierung eines Phänomens, um es besser zu verstehen, und die mögliche Verwendung dieses Verständnisses, um eine Methode zu erwirken oder Entscheidungen zu geeigneten Maßnahmen zu treffen, die ergriffen werden müssen. Die grundlegende Zielsetzung besteht darin, die Ausdehnung zu messen, die durch Änderungen in einer oder mehreren Variablen gemeinsam Änderungen in einer anderen Variablen verursachen. Beispiel: Wenn Sie die wichtigsten Merkmale des Lebensraums für eine bestimmte gefährdete Vogelgattung verstehen (z. B. Niederschlag, Nahrungsquellen, Vegetation, Feinde), kann dieses Wissen für den Entwurf von Gesetzen hilfreich sein, die auf den Schutz dieser Gattung abzielen.
- Zur Modellierung eines Phänomens, um Werte an anderen Orten oder zu anderen Zeiten vorherzusagen. Die grundlegende Zielsetzung besteht darin, ein Vorhersagemodell zu erstellen, das sowohl konsistent als auch genau ist. Beispiel: Wie wird angesichts der Vorhersagen für das Bevölkerungswachstum und der typischen Wettervorhersagen der Elektrizitätsbedarf nächstes Jahr aussehen?
- Mit Regressionsanalysen können auch Hypothesen untersucht werden. Angenommen, Sie modellieren Wohnungseinbrüche, um ein besseres Verständnis dafür zu entwickeln und hoffentlich eine Methode implementieren zu können, durch die diese verhindert werden können. Wenn Sie die Analyse starten, gibt es wahrscheinlich Fragen oder Hypothesen, die Sie untersuchen möchten:
- Die Theorie des zerbrochenen Fensters besagt, dass die Beschädigung von öffentlichem Eigentum (Graffiti, beschädigte Anlagen usw.) zu weiteren Verbrechen führen kann. Gibt es eine positive Beziehung zwischen Vandalismus und Wohnungseinbrüchen?
- Gibt es eine Beziehung zwischen illegalem Drogenkonsum und Einbrüchen (stehlen Drogenabhängige, um ihren Drogenkonsum zu finanzieren?
- Neigen Einbrecher zu rücksichtslosem Verhalten? Gibt es möglicherweise mehr Einbrüche in Wohngegenden mit einem höheren Anteil an älteren Menschen oder von Frauen geführten Haushalten?
- Ist die Einbruchsgefahr für Menschen größer, wenn sie in einer reichen oder armen Nachbarschaft leben?
Begriffe und Konzepte der Regressionsanalyse
Damit Sie die Regressionsanalyse verstehen können, müssen Sie sich zuerst mit einigen Begriffen und grundlegenden Konzepten von Regressionsstatistiken vertraut machen:
Regressionsgleichung: Dies ist die mathematische Formel, die auf die erklärenden Variablen angewendet wird, um die abhängige Variable, die Sie versuchen zu modellieren, bestmöglich vorherzusagen. Die Notation in Regressionsgleichungen ist für die abhängige Variable (zum Leidwesen der Benutzer, die aus den Geowissenschaften kommen und x- und y-Koordinaten gewohnt sind) immer y und für die unabhängigen oder erklärenden Variablen immer X. Jede unabhängige Variable ist mit einem Regressionskoeffizienten verknüpft, der die Stärke und das Vorzeichen der Beziehung dieser Variablen zur abhängigen Variablen beschreibt. Eine Regressionsgleichung kann folgendermaßen aussehen (y ist die abhängige Variable, die X sind die erklärenden Variablen, und β sind die Regressionskoeffizienten; alle Komponenten der Regressionsgleichung werden nachfolgend erläutert):
- Abhängige Variable (y): Dies ist die Variable, die den Prozess darstellt, den Sie versuchen vorherzusagen oder zu verstehen (Wohnungseinbruch, Zwangsvollstreckung, Niederschlag). In der Regressionsgleichung wird diese auf der linken Seite des Gleichheitszeichens angezeigt. Sie können Regressionen zwar verwenden, um die abhängige Variable vorherzusagen, Sie beginnen jedoch immer mit einem Satz bekannter y-Werte und verwenden diese, um das Regressionsmodell zu erstellen (bzw. zu kalibrieren). Die bekannten y-Werte werden häufig als beobachtete Werte bezeichnet.
- Unabhängige/Erklärende Variablen(X): Dies sind die Variablen, die zum Modellieren oder Vorhersagen der Werte der abhängigen Variablen verwendet werden. In der Regressionsgleichung stehen sie auf der rechten Seite des Gleichheitszeichens und werden häufig als erklärende Variablen bezeichnet. Die abhängige Variable ist eine Funktion der erklärenden Variablen. Wenn Sie die jährlichen Einkäufe für einen bestimmten Laden vorhersagen möchten, können Sie beispielsweise erklärende Variablen in das Modell einschließen, die die Anzahl potenzieller Kunden, die Entfernung zu Wettbewerbern, die Sichtbarkeit des Ladens sowie das lokale Ausgabeverhalten darstellen.
- Regressionskoeffizienten (β): Koeffizienten werden vom Regressionswerkzeug berechnet. Es handelt sich dabei um Werte, einer für jede erklärende Variable, die die Stärke und die Art der Beziehung der erklärenden Variablen mit der abhängigen Variablen darstellen. Angenommen, Sie modellieren die Feuerhäufigkeit als Funktion von Sonneneinstrahlung, Vegetation, Niederschlag und Ausrichtung. Sie werden sicherlich eine positive Beziehung zwischen der Feuerhäufigkeit und der Sonneneinstrahlung erwarten (anders ausgedrückt: je mehr Sonneneinstrahlung, desto mehr Brände) erwarten. Wenn die Beziehung positiv ist, ist das Zeichen für den zugeordneten Koeffizienten auch positiv. Zwischen der Feuerhäufigkeit und dem Niederschlag ist eine negative Beziehung zu erwarten (anders ausgedrückt: an Orten mit mehr Regen gibt es weniger Feuer). Koeffizienten für negative Beziehungen haben negative Vorzeichen. Wenn die Beziehung stark ist, ist der Koeffizient verhältnismäßig groß (relativ zu den Einheiten der erklärenden Variable, mit der er verknüpft ist). Schwache Beziehungen sind mit Koeffizienten nahe Null verknüpft; β0 ist der Regressions-Intercept. Er stellt den erwarteten Wert für die abhängige Variable dar, wenn alle unabhängigen (erklärenden) Variablen Null sind.
P-Werte: Die meisten Regressionsmethoden führen einen statistischen Test zur Berechung einer Wahrscheinlichkeit, die als p-Wert bezeichnet wird, für die Koeffizienten aus, die mit den einzelnen unabhängigen Variablen verknüpft sind. Die Nullhypothese für diesen statistischen Test gibt an, dass sich ein Koeffizient nicht signifikant von Null unterscheidet (anders ausgedrückt: der Koeffizient ist für alle Zwecke Null, und die verknüpfte erklärende Variable unterstützt das Modell nicht). Kleine p-Werte spiegeln kleine Wahrscheinlichkeiten wider und geben an, dass es tatsächlich wichtig für das Modell ist, dass der Koeffizient einen Wert aufweist, der sich signifikant von Null unterscheidet (anders ausgedrückt: ein kleiner p-Wert gibt an, dass der nicht Null ist). Man könnte sagen, dass ein Koeffizient mit einem p-Wert von 0,01 beispielsweise statistisch signifikant bei einem Konfidenzniveau von 99 Prozent ist; die verknüpfte Variable ist ein effektives Mittel für die Vorhersage. Variablen mit Koeffizienten nahe Null helfen nicht bei der Vorhersage oder Modellierung der abhängigen Variablen; sie werden fast immer aus der Regressionsgleichung entfernt, außer es gibt wichtige theoretische Gründe für ihre Beibehaltung.
R2/R-Squared: Multiple R-Squared- und Adjusted R-Squared-Werte werden beide von der Regressionsgleichung abgeleitet, um die Modell-Performance zu quantifizieren. Der Wert von R-Squared-Bereichen liegt zwischen 0 und 100 Prozent. Wenn das Modell genau den beobachteten abhängigen Variablenwerten entspricht, beträgt R-Squared 1.0 (und Sie haben zweifellos einen Fehler gemacht; vielleicht haben Sie eine Form von y verwendet, um y vorherzusagen. Mit großer Wahrscheinlichkeit werden Sie R-Squared-Werte von 0,49 sehen, die Sie interpretieren können mit der Aussage: "Dieses Modell erklärt 49 Prozent der Variation in der abhängigen Variable". Um zu verstehen, was mit dem R-Squared-Wert bezweckt wird, erstellen Sie ein Diagramm, in dem sowohl die geschätzten als auch die beobachteten y-Werte sortiert nach den geschätzten Werten angezeigt werden. Beachten Sie, wie viele Überschneidungen es gibt. Diese Abbildung stellt eine visuelle Darstellung davon bereit, wie gut die vorhergesagten Werte des Modells die Variation in den beobachteten abhängigen Variablenwerten erklären. Abbildung anzeigen. Der Adjusted R-Squared-Wert ist immer etwas niedriger als der Multiple R-Squared-Wert, da er die Modellkomplexität (die Anzahl von Variablen) im Verhältnis zu den Daten widerspiegelt. Folglich ist der Adjusted R-Squared-Wert ein genauerer Wert für die Modell-Performance.
Residuen: Dabei handelt es sich um den unerklärten Teil der abhängigen Variablen, der in Regressionsgleichung als Zufallsfehler ε dargestellt ist. Abbildung anzeigen. Bekannte Werte für die abhängige Variable werden verwendet, um das Regressionsmodell zu erstellen und zu kalibrieren. Mithilfe von bekannten Werten für die abhängige Variable (y) und bekannten Werten für alle erklärenden Variablen (X) erstellt das Regressionswerkzeug eine Gleichung, die die bekannten y-Werte bestmöglich vorhersagen wird. Die vorhergesagten Werte stimmen jedoch nur selten genau mit den beobachteten Werten überein. Die Differenz zwischen den beobachteten y-Werten und den vorhergesagten y-Werten wird als Residuen bezeichnet. Der Betrag der Residuen aus einer Regressionsgleichung ist ein Messwert für die Modelleignung. Große Residuen deuten auf eine niedrige Modelleignung hin.
Das Erstellen eines Regressionsmodells ist ein iterativer Prozess, der das Suchen von effektiven unabhängigen Variablen zur Erklärung der abhängigen Variablen, die Sie versuchen zu modellieren oder zu verstehen, das Ausführen des Regressionswerkzeugs zur Bestimmung, welche Variablen eine effektive Vorhersage unterstützen und schließlich das wiederholte Entfernen und/oder Hinzufügen von Variablen umfasst, bis Sie das bestmögliche Regressionsmodell gefunden haben. Der Modellerstellungsprozess ist zwar häufig ein untersuchender Prozess, er sollte aber nie eine "Ausforschung" sein. Sie sollten die potenziellen erklärenden Variablen identifizieren, indem theoretische Informationen, Experten auf diesem Gebiet und Ihren gesunden Menschenverstand zu Rate ziehen. Sie müssen in der Lage sein, die erwartete Beziehung zwischen den einzelnen potenziellen erklärenden Variablen und der abhängigen Variable vor der Analyse anzugeben und zu rechtfertigen, und Sie sollten Modelle in Frage stellen, bei denen diese Beziehungen nicht übereinstimmen.
Wenn Sie bisher noch keine Regressionsanalyse verwendet haben, ist es nun an der Zeit, dass Sie das Lernprogramm für Regressionsanalysen herunterladen und die Schritte 1-5 durcharbeiten.
Probleme bei der Regressionsanalyse
Die OLS-Regression ist eine einfache Methode, die auf einer gut entwickelten Theorie basiert und eine Reihe von effektiven Diagnosen umfasst, die bei der Interpretation und Problembehandlung behilflich sind. OLS ist jedoch nur dann effektiv und zuverlässig, wenn die Daten und das Regressionsmodell allen Annahmen entspricht/genügt, die für diese Methode erforderlich sind (siehe die Tabelle unten). Räumliche Daten verstoßen häufig gegen die Annahmen und Anforderungen der OLS Regression, es ist daher wichtig, die Regressionswerkzeuge in Verbindung mit entsprechenden Diagnosewerkzeugen zu verwenden, die beurteilen können, ob die Regression angesichts der Struktur der Daten und des implementierten Modells eine geeignete Methode für die Analyse ist.
Wie Regressionsmodelle ungültig werden
Eine schwerwiegende Verletzung bei vielen Regressionsmodellen sind falsche Angaben. Bei einem falsch angegebenen Modell handelt es sich um ein Modell, in dem wichtige erklärende Variablen fehlen; das Modell stellt daher nicht genau dar, was Sie modellieren oder vorhersagen möchten (die abhängige Variable y). Anders ausgedrückt liefert das Regressionsmodell nur einen Teil der Informationen. Eine falsche Angabe ist immer dann offensichtlich, wenn Sie eine statistisch signifikante räumliche Autokorrelation in den Regressionsresiduen sehen, oder, wenn Ihnen auffällt, dass zu hohe oder zu niedrige Vorhersagen (Residuen) aus dem Modell zu einer räumlichen Cluster-Bildung neigen, sodass die zu hohen Vorhersagen in einigen Abschnitten des Untersuchungsgebiets und die zu niedrigen Vorhersagen in einem anderen Abschnitt gruppiert werden. Durch Zuordnen von Regressionsresiduen oder der Koeffizienten, die mit der Analyse der Geographisch gewichteten Regression verknüpft sind, erhalten Sie häufig Anhaltspunkte dazu, was fehlt. Durch Ausführen einer Hot Spot-Analyse in den Regressionsresiduen können auch unterschiedliche räumliche Ordnungen aufgedeckt werden, die in OLS mit regionalen Variablen modelliert oder mithilfe der geographisch gewichteten Regressionsmethode behoben werden können. Angenommen, Sie sehen beim Zuordnen der Regressionsresiduen, dass das Modell in Gebirgsgegenden immer zu hohe Vorhersagen und in Tälern immer zu niedrige Vorhersagen abgibt: Sie werden daraus wahrscheinlich schlussfolgern, dass in dem Modell eine Höhenvariable fehlt. Irgendwann werden die fehlenden Variablen jedoch zu komplex für eine Modellierung, Quantifizierung oder Messung. In diesen Fällen können Sie vielleicht auf GWR oder eine andere räumliche Regressionsmethode umsteigen, um ein korrekt angegebenes Modell zu erhalten.
In der folgenden Tabelle sind allgemeine Probleme bei Regressionsmodellen und den in ArcGIS verfügbaren Werkzeugen aufgeführt:
Fehlende erklärende Variablen (falsche Angabe). |
Wenn wichtige erklärende Variablen im Regressionsmodell fehlen, sind Koeffizienten und deren zugehörige p-Werte nicht vertrauenswürdig. |
Ordnen Sie OLS-Residuen und GWR-Koeffizienten zu, und untersuchen Sie sie, oder führen Sie eine Hot Spot-Analyse für OLS-Regressionsresiduen aus, um zu sehen, ob dies Hinweise auf mögliche fehlende Variablen liefert. |
Nicht lineare Beziehungen. Abbildung anzeigen. |
OLS und GWR sind beide lineare Methoden. Wenn die Beziehung zwischen einer der erklärenden Variablen und der abhängigen Variablen nicht linear ist, ist die Performance des resultierenden Modells schlecht. |
Erstellen Sie ein Scatterplot-Matrixdiagramm, um die Beziehungen unter allen Variablen im Modell zu erklären. Achten Sie auf Beziehungen, die die abhängige Variable einschließen. Kurvilinearität kann häufig durch Transformieren der Variablen behoben werden. Abbildung anzeigen. Verwenden Sie alternativ eine nicht lineare Regressionsmethode. |
Datenausreißer. Abbildung anzeigen. |
Einflussreiche Ausreißer können modellierte Regressionsbeziehungen weg von ihrer optimalen Position ziehen, wodurch Regressionskoeffizienten verzerrt werden. |
Erstellen Sie eine Scatterplotmatrix und andere Diagramme (Histogramme), um extreme Datenwerte zu untersuchen. Korrigieren oder entfernen Sie Ausreißer, wenn diese Fehler darstellen. Wenn Ausreißer richtige/gültige Werte sind, können/sollten sie nicht entfernt werden. Führen Sie die Regression mit und ohne Ausreißern aus, um zu sehen, wie stark der Einfluss auf Ihre Ergebnisse ist. |
Nichtstationarität. Sie werden feststellen, dass eine Einkommensvariable beispielsweise starken erklärenden Einfluss in Region A hat, in Region B jedoch nicht signifikant ist oder sogar Vorzeichen wechselt. Abbildung anzeigen.. |
Wenn Beziehungen zwischen den abhängigen und erklärenden Variablen im Untersuchungsgebiet inkonsistent sind, werden berechnete Standardfehler künstlich aufgeblasen. |
Mit dem Werkzeug OLS in ArcGIS wird automatisch auf Probleme im Zusammenhang mit Nichtstationarität (regionale Variation) getestet, und es werden robuste Standardfehlerwerte berechnet. Abbildung anzeigen. Wenn die mit dem Koenker-Test verknüpfte Wahrscheinlichkeit klein (z. B. < 0,05) ist, liegt eine statistisch signifikante regionale Variation vor, und Sie sollten die robusten Wahrscheinlichkeiten heranziehen, um zu bestimmen, ob eine erklärende Variable statistisch signifikant ist oder nicht. Modellergebnisse können häufig mit dem Werkzeug Geographisch gewichtete Regression verbessert werden. |
Multikollinearität. Eine erklärende Variable oder eine Kombination erklärender Variablen ist redundant. Abbildung anzeigen. |
Multikollinearität führt zu einem zu hohen Maß an Verzerrung und zu einem instabilen/unzuverlässigen Modell. |
Mit dem Werkzeug OLS in ArcGIS wird automatisch die Redundanz überprüft. Jede erklärende Variable erhält einen berechneten VIF-Wert. Wenn dieser Wert groß ist (beispielsweise > 7,5), ist Redundanz ein Problem, und die das Problem verursachenden Variablen müssen aus dem Modell entfernt oder durch Erstellen einer Interaktionsvariablen bzw. Erhöhen der Mustergröße geändert werden. Abbildung anzeigen. |
Inkonsistente Abweichung in Residuen. Dies liegt möglicherweise daran, dass das Modell korrekte Vorhersagen bei kleinen Werten der abhängigen Variablen macht, bei größeren Werten jedoch unzuverlässig wird. Abbildung anzeigen. |
Wenn das Modell ungenaue Vorhersagen für einige Wertbereiche liefert, sind die Ergebnisse verzerrt. |
Mit dem Werkzeug OLS in ArcGIS wird automatisch auf eine inkonsistente Residuenvarianz (die als Heteroskedastizität bezeichnet wird) getestet, und es werden Standardfehler berechnet, die gegen dieses Problem resistent sind. Wenn die mit dem Koenker-Test verknüpfte Wahrscheinlichkeit klein (z. B. < 0,05) ist, sollten Sie die robusten Wahrscheinlichkeiten heranziehen, um zu bestimmen, ob eine erklärende Variable statistisch signifikant ist oder nicht. Abbildung anzeigen. |
Räumlich autokorrelierte Residuen Abbildung anzeigen. |
Wenn eine räumliche Cluster-Bildung der zu hohen oder zu niedrigen Vorhersagen gibt, die aus dem Modell kommen, entsteht dadurch ein zu hohes Maß an Verzerrung, wodurch das Modell unzuverlässig wird. |
Führen Sie das Werkzeug Räumliche Autokorrelation für die Residuen aus, um sicherzustellen, dass keine statistisch signifikante räumliche Cluster-Bildung vorhanden ist. Die statistisch signifikante räumliche Autokorrelation ist fast immer ein Symptom der falschen Angabe (im Modell fehlt eine wichtige Variable). Abbildung anzeigen. |
Normalverteilungstendenz. Abbildung anzeigen. |
Wenn die Regressionsmodellresiduen nicht normal mit einem Mittelwert von Null verteilt sind, sind die mit den Koeffizienten verknüpften p-Werte unzuverlässig. |
Das Werkzeug OLS in ArcGIS testet automatisch, ob die Residuen normal verteilt sind. Wenn die Jarque-Bera-Statistik statistisch signifikant (beispielsweise < 0,05) ist, ist das Modell wahrscheinlich falsch angegeben (eine wichtige Variable fehlt in dem Modell), oder einige der Beziehungen, die Sie modellieren, sind nicht linear. Untersuchen Sie die ausgegebene Residuenkarte und vielleicht auch die GWR-Koeffizientenkarten, um zu sehen, ob dadurch die wichtigen Variablen aufgedeckt werden, die in der Analyse fehlen. Sehen Sie sich die Scatterplot-Matrixdiagramme an, und suchen Sie nach nicht linearen Beziehungen. |
Es ist wichtig, einen Test für jedes der oben aufgeführten Probleme durchzuführen. Ergebnisse können zu 100 Prozent falsch sein (Abweichung von 180 Grad), wenn die Probleme oben ignoriert werden.
Wenn Sie bisher noch keine Regressionsanalyse verwendet haben, ist es nun an der Zeit, dass Sie das Lernprogramm für Regressionsanalysen herunterladen und durcharbeiten.
Räumliche Regression
Räumliche Daten weisen zwei Eigenschaften auf, die es schwierig (aber nicht unmöglich) machen, die Annahmen und Anforderungen herkömmlicher (nicht räumlicher) statistischer Methoden zu erfüllen, wie z. B. die OLS-Regression:
- Geographische Features sind häufig räumlich autokorreliert; dies bedeutet, dass Features, die sich näher aneinander befinden, ähnlicher sind als Features, die weiter voneinander entfernt sind. Dadurch entsteht ein zu hohes Maß an Verzerrung für herkömmliche (nicht räumliche) Regressionsmethoden.
- Geographie ist wichtig, und häufig sind die wichtigsten Prozesse für die Modellierungen nicht stationär; diese Prozesse verhalten sich in unterschiedlichen Teilen des Untersuchungsgebiets unterschiedlich. Dieses Merkmal räumlicher Daten kann als regionale Variation oder Nichtstationarität bezeichnet werden.
Echte räumliche Regressionsmethoden wurden entwickelt, um diese zwei Eigenschaften räumlicher Daten sicher zu verwalten und auch um diese besonderen Merkmale räumlicher Daten zur Verbesserung ihrer Fähigkeiten im Zusammenhang mit der Modellierung von Datenbeziehungen zu integrieren. Bei einigen räumlichen Regressionsmethoden wird die erste Eigenschaft (räumliche Autokorrelation) effektiv behandelt, während bei anderen Methoden die zweite Eigenschaft (Nichtstationarität) effektiv behandelt wird. Derzeit gibt es keine räumlichen Regressionsmethoden, die für beide Eigenschaften effektiv sind. Bei einem korrekt angegebenen GWR-Modell ist die räumliche Autokorrelation in der Regel jedoch kein Problem.
Räumliche Autokorrelation
Es scheint einen großen Unterschied zwischen der Sichtweise der räumlichen Autokorrelation von herkömmlichen Statistikern und räumlichen Statistikern zu geben. Der herkömmliche Statistiker betrachtet die räumliche Autorkorrelation als etwas Schlechtes, das aus den Daten entfernt werden muss (beispielsweise durch Resampling), da sie gegen die zugrunde liegenden Annahmen vieler herkömmlichen (nicht räumlicher) statistischen Methoden verstößt. Für einen Geographen oder GIS-Analysten ist die räumliche Autokorrelation jedoch der Beweis für wichtige zugrunde liegende räumliche Prozesse; sie ist ein integraler Bestandteil der Daten. Durch Entfernen von Raum werden Daten aus ihrem räumlichen Kontext entfernt; damit bekommen Sie nur die halbe Geschichte. Die räumlichen Prozesse und räumlichen Beziehungen, die in den Daten vorhanden sind, sind das Hauptinteresse von GIS-Benutzer und einer der Gründe, warum diese sich so über die räumlichen Datenanalyse freuen. Um ein zu hohes Maß an Verzerrung im Modell zu verhindern, müssen Sie jedoch den vollen Satz erklärender Variablen identifizieren, die die inhärente räumliche Struktur in der abhängigen Variablen effektiv erfassen. Wenn Sie nicht alle Variablen identifizieren können, sehen Sie mit großer Wahrscheinlichkeit eine signifikante räumliche Autokorrelation in den Modellresiduen. Leider sind die Regressionsergebnisse erst zuverlässig, nachdem dies behoben wurde. Verwenden Sie das Werkzeug Räumliche Autokorrelation, um einen Test für statistisch signifikante räumliche Autokorrelation in den Regressionsresiduen durchzuführen.
Es gibt mindestens drei Strategien für den Umgang mit räumlicher Autokorrelation in Regressionsmodellresiduen:
- Führen Sie ein Resampling durch, bis die Eingabevariablen keine statisch signifikante räumliche Autokorrelation mehr aufweisen. Dadurch wird zwar nicht sichergestellt, dass die Analyse keine Probleme im Zusammenhang mit räumlicher Autokorrelation aufweist, aber sie treten weit seltener auf, wenn die räumliche Autokorrelation aus den abhängigen und erklärenden Variablen entfernt wird. Dies ist der Ansatz des herkömmlichen Statistikers für den Umgang mit der räumlichen Autokorrelation; dieser Ansatz eignet sich nur, wenn räumliche Autokorrelation das Ergebnis einer Datenredundanz ist (das Referenzpunktschema ist zu fein).
- Isolieren Sie die räumlichen und nicht räumlichen Komponenten jeder Eingabevariablen mithilfe einer räumlichen Filterregressionsmethode. Dabei wird Raum aus jeder Variablen entfernt, jedoch dann wieder erneut als neue Variable in das Regressionsmodell eingefügt, die für räumliche Effekte/räumliche Struktur wichtig ist. ArcGIS umfasst derzeit keine räumlichen Filterregressionsmethoden.
- Integrieren Sie räumliche Autokorrelation mithilfe räumlicher ökonometrischer Regressionsmethoden in das Regressionsmodell. ArcGIS wird in einer künftigen Version um räumliche ökonometrische Regressionsmethoden ergänzt.
Regionale Variation
Globale Modelle, wie die OLS-Regression, erstellen Sie Gleichungen, mit denen alle Datenbeziehungen in einem Untersuchungsgebiet am besten beschrieben werden. Wenn diese Beziehungen über den Untersuchungsgebiet hinweg konsistent sind, kann die OLS-Regressionsgleichung diese Beziehungen gut modellieren. Wenn sich diese Beziehungen in unterschiedlichen Teilen des Untersuchungsgebiets jedoch unterschiedlich verhalten, ist die Regressionsgleichung eher ein Durchschnitt der Mischung aus vorhandenen Beziehungen, und in dem Fall, in dem diesem Beziehungen zwei Extreme darstellen, kann der globale Durchschnitt diese nicht gut modellieren. Wenn die erklärenden Variablen nichtstationäre Beziehungen (regionale Variation) aufweisen, neigen globale dazu, zu zerfallen, sofern keine robusten Methoden zur Berechnung der Regressionsergebnisse verwendet werden. Im Idealfall können Sie einen vollen Satz erklärender Variablen identifizieren, um die regionale Variation in der abhängigen Variablen zu erfassen. Wenn Sie jedoch nicht alle räumlichen Variablen identifizieren können, werden Sie wieder eine statistisch signifikante räumliche Autokorrelation in den Modellresiduen und/oder niedrigere R-Squared-Werte als erwartet feststellen. Leider sind die Regressionsergebnisse erst zuverlässig, nachdem dies behoben wurde.
Es gibt mindestens vier Möglichkeiten für den Umgang mit regionaler Variation in OLS-Regressionsmodellen:
- Schließen Sie eine Variable in das Modell ein, das die regionale Variation erklärt. Wenn Sie feststellen, dass das Modell immer zu hohe Vorhersagen im Norden und zu niedrige Vorhersagen im Süden abgibt, können Sie beispielsweise eine regionale Variable hinzufügen, die für Features im Norden auf 1 und für Features im Süden auf 0 festgelegt wird.
- Verwenden Sie Methoden, die regionale Variation in das Regressionsmodell integrieren, z. B. geographisch gewichtete Regression.
- Ziehen Sie robuste Regressionsstandardfehler und Wahrscheinlichkeiten heran, um zu bestimmen, ob Variablenkoeffizienten statistisch signifikant sind. Weitere Informationen finden Sie unter Interpretieren von OLS-Regressionsergebnissen. Die geographisch gewichtete Regression wird nach wie vor empfohlen.
- Definieren Sie die Größe des Untersuchungsgebiets neu bzw. reduzieren Sie sie, damit Prozesse innerhalb des Untersuchungsgebiets stationär sind (und keine regionale Variation mehr aufweisen).
Weitere Informationen zur Verwendung der Regressionswerkzeuge finden Sie in den folgenden Themen:
Weitere Informationen zur OLS-Regression
Weitere Informationen zur GWR-Regression