Was ist ein Z-Ergebnis? Was ist ein p-Wert?
Die meisten statistischen Tests beginnen damit, dass eine Nullhypothese identifiziert wird. Die Nullhypothese für die Musteranalysewerkzeuge (Toolset "Muster werden analysiert" und Toolset "Zuordnungs-Cluster") ist eine zufällige räumliche Verteilung (Complete Spatial Randomness, CSR), entweder von den Features selbst oder von den mit diesen Features verknüpften Werten. Die Z-Ergebnisse und p-Werte, die von den Musteranalysewerkzeugen zurückgegeben werden, geben Aufschluss darüber, ob Sie diese Nullhypothese ablehnen können oder nicht. Häufig werden Sie eines der Musteranalysewerkzeuge ausführen und hoffen, dass das Z-Ergebnis und der p-Wert angeben, dass Sie die Nullhypothese ablehnen können, da dies darauf hindeuten würde, dass die Features (bzw. die mit den Features verknüpften Werte) eine statistisch signifikante Cluster-Bildung oder Streuung und kein zufälliges Muster aufweisen. Jedes Mal, wenn Sie eine räumliche Struktur, z. B. eine Cluster-Bildung, in der Landschaft (oder in den räumlichen Daten) sehen, ist dies der Beweis für zugrunde liegende räumliche Prozesse, die arbeiten. Als Geograph oder GIS-Analyst ist dies häufig, woran Sie am meisten interessiert sind.
Der p-Wert ist eine Wahrscheinlichkeit. Für die Musteranalysewerkzeuge stellt dieser Wert die Wahrscheinlichkeit dar, dass das beobachtete räumliche Muster von einem zufälligen Prozess erstellt wurde. Wenn der p-Wert sehr klein ist, bedeutet dies, dass es sehr unwahrscheinlich (kleine Wahrscheinlichkeit) ist, dass das beobachtete räumliche Muster das Ergebnis zufälliger Prozesse ist, deshalb können Sie die Nullhypothese ablehnen. Sicherlich fragen Sie sich: Was bedeutet klein? Gute Frage. Sehen Sie die folgende Tabelle und die Erläuterung dazu an.
Z-Ergebnisse sind ganz einfach Standardabweichungen. Wenn ein Werkzeug beispielsweise ein Z-Ergebnis von +2,5 zurückgibt, würde das bedeuten, das das Ergebnis 2,5 Standardabweichungen ist. Sowohl die Z-Ergebnisse als auch die p-Werte sind mit Standardnormalverteilung verknüpft, wie unten dargestellt.
Sehr hohe oder sehr niedrige (negative) Z-Ergebnisse, die mit sehr kleinen p-Werten verknüpft sind, sind an den Enden der Normalverteilung zu finden. Wenn Sie ein Feature-Musteranalysewerkzeug ausführen und dabei niedrige p-Werte und entweder ein sehr hohes oder sehr niedriges Z-Ergebnis zurückgegeben werden, deutet dies darauf hin, dass es unwahrscheinlich ist, dass das beobachtete räumliche Muster das theoretische zufällige Muster widerspiegelt, das von der Nullhypothese (CSR) dargestellt wird.
Um die Nullhypothese abzulehnen, müssen Sie eine subjektives Urteil bezüglich des Risikos fällen, das Sie bereit sind einzugehen, für den Fall dass Sie falsch liegen (und die Nullhypothese fälschlicherweise ablehnen). Bevor Sie die räumliche Statistik ausführen, wählen Sie daher ein Konfidenzniveau aus. Typische Konfidenzniveaus liegen bei 90, 95 oder 99 Prozent. Ein Konfidenzniveau von 99 Prozent wäre in diesem Fall das konservativste und gibt an, dass Sie die Nullhypothese nicht ablehnen möchten, außer die Wahrscheinlichkeit, dass das Muster zufällig erstellt wurde, ist äußerst gering (weniger als 1 Prozent). In der Tabelle sind die kritischen p-Werte und Z-Ergebnisse für unterschiedliche Konfidenzniveaus dargestellt.
Z-Ergebnis (Standardabweichungen) |
p-Wert (Wahrscheinlichkeit) |
Konfidenzniveau |
---|---|---|
< -1,65 oder > +1,65 |
< 0,10 |
90 % |
< -1,96 oder > +1,96 |
< 0,05 |
95 % |
< -2,58 oder > +2,58 |
< 0,01 |
99 % |
Sehen Sie sich das folgende Beispiel an. Die kritischen Z-Ergebniswerte bei Verwendung eines Konfidenzniveaus von 95 Prozent sind die Standardabweichungen -1,96 und +1,96. Der mit einem Konfidenzniveau von 95 Prozent verknüpfte p-Wert ist 0,05. Wenn das Z-Ergebnis zwischen -1,96 und +1,96 liegt, ist der p-Wert größer als 0,05, und Sie können die Nullhypothese nicht ablehnen; das gezeigte Muster könnte mit großer Wahrscheinlichkeit das Ergebnis zufälliger räumlicher Prozesse sein. Wenn das Z-Ergebnis außerhalb dieses Bereichs liegt (z. B., -2,5 oder +5,4 Standardabweichungen) ist die Wahrscheinlichkeit groß, dass das beobachtete räumliche Muster zu ungewöhnlich ist und somit nicht das Ergebnis zufälliger Prozesse ist. Der p-Wert ist daher klein. In diesem Fall können Sie die Nullhypothese ablehnen und sich überlegen, wodurch die statistisch signifikante räumliche Struktur in den Daten verursacht wird.
Eine wichtige Idee hierbei ist, dass die Werte in der Mitte der Normalverteilung (beispielsweise Z-Ergebnisse wie 0,19 oder -1,2) das erwartete Ergebnis darstellen. Wenn jedoch der absolute Wert des Z-Ergebnisses groß ist und die Wahrscheinlichkeiten niedrig sind (an den Enden der Normalverteilung) ist etwas ungewöhnliches und in der Regel sehr interessantes zu beobachten. Für das Werkzeug Hot Spot-Analyse bedeutet "ungewöhnliches" beispielsweise entweder einen statistisch signifikanten Hot Spot oder einen statistisch signifikanter Cold Spot.
Die Nullhypothese
Mehrere Statistiken in der Toolbox "Spatial Statistics" sind schlussfolgernde räumliche Musteranalysetechniken, z. B. Räumliche Autokorrelation (Global Morans I), Cluster-und Ausreißeranalyse (Anselin Local Morans I) und Hot Spot-Analyse (Getis-Ord Gi*). Schlussfolgernde Statistiken beruhen auf der Wahrscheinlichkeitstheorie. Die Wahrscheinlichkeit ist ein Messwert für den Zufall, und alle statistischen Tests (entweder direkt oder indirekt) sind im Grunde Wahrscheinlichkeitsberechnungen, die die Rolle der Wahrscheinlichkeit für das Ergebnis der Analyse Chance und allen statistischen Tests bewerten. In der Regel arbeiten Sie bei herkömmlichen (nicht räumlichen) Statistiken mit einer zufälligen Probe und versuchen, die Wahrscheinlichkeit zu bestimmen, mit der die Referenzdaten eine gute Darstellung der Bevölkerung insgesamt (reflektiv) sind. Sie könnten beispielsweise fragen: "Wie groß ist die Wahrscheinlichkeit, dass die Ergebnisse meiner Wählerbefragung (die aussagt, dass Kandidat A Kandidat B knapp schlagen wird) die finalen Wahlergebnisse widerspiegeln?" Bei vielen räumlichen Statistiken, einschließlich der oben aufgeführten räumlichen Autokorrelations-Typstatistiken, müssen Sie jedoch häufig mit allen verfügbaren Daten für das Untersuchungsgebiet arbeiten (alle Verbrechen, alle Krankheitsfälle, Attribute für jeden Zählbezirk usw.). Wenn Sie eine Statistik für die ganze Bevölkerung berechnen, haben Sie keine Schätzung mehr. Es handelt sich vielmehr um eine Tatsache. Es ist daher nicht sinnvoll, weiter über Wahrscheinlichkeiten zu sprechen. Wie können die räumlichen Musteranalysewerkzeuge, die häufig auf alle Daten im Untersuchungsgebiet angewendet wurden, Wahrscheinlichkeiten zulässig melden? Dies ist möglich, indem über die Nullhypothese vorausgesetzt wird, dass die Daten tatsächlich Teil einer größeren Population sind. Sehen Sie sich dies etwas genauer an.
Die Zufallsnullhypothese: Die Werkzeuge in der Toolbox "Spatial Statistics" verwenden, wenn möglich, die Zufallsnullhypothese als Grundlage für statistische Signifikanztests. Die Zufallsnullhypothese fordert, dass das beobachtete räumliche Muster der Daten eine von vielen (n!) möglichen räumlichen Anordnungen darstellt. Wenn Sie die Datenwerte aufnehmen und sie auf die Features im Untersuchungsgebiet werfen könnten, würden Sie eine mögliche räumliche Anordnung dieser Werte erhalten. (Beachten Sie, dass das Aufnehmen der Datenwerte und das zufällige Werfen ein Beispiel für einen zufälligen räumlichen Prozess ist). Die Zufallsnullhypothese besagt, dass wenn Sie diese Übung (aufnehmen, abwerfen) unendliche Male ausführen könnten, würde in den meisten Fällen ein Muster entstehen, das sich nicht wesentlich von dem beobachteten Muster (den realen Daten) unterscheidet. Hin und wieder werfen Sie vielleicht versehentlich alle höchsten Werte in die gleiche Ecke des Untersuchungsgebiets, die Wahrscheinlichkeit hierfür ist jedoch niedrig. Die Zufallsnullhypothese besagt, dass die Daten eine von vielen, viele, viele mögliche Versionen der zufälligen räumlichen Verteilung sind. Die Datenwerte sind fest; nur ihre räumliche Anordnung ist veränderbar.
Die Normalisierungsnullhypothese: Eine häufig verwendete alternative Nullhypothese, die nicht für die Toolbox "Spatial Statistics" implementiert wurde, ist die Normalisierungsnullhypothese. Die Normalisierungsnullhypothese fordert, dass die beobachteten Werte über einen zufälligen Sampling-Prozess von einer unendlich großen, normal verteilten Population von Werten abgeleitet werden. Bei einer anderen Probe würden Sie andere Werte erhalten, Sie würden aber dennoch erwarten, dass diese Werte für eine größere Verteilung repräsentativ sind. Die Normalisierungsnullhypothese gibt an, dass die Werte einen von vielen möglichen Beispielwerten darstellen. Wenn Sie die beobachteten Daten an eine normale Kurve anpassen und zufällig Werte aus dieser Verteilung auswählen könnten, die auf das Untersuchungsgebiet geworfen werden, würde meistens ein Muster und eine Verteilung von Werten erstellt werden, die sich nicht wesentlich von dem beobachteten Muster/der beobachteten Verteilung (den realen Daten) unterscheiden würde. Die Normalisierungsnullhypothese besagt, dass die Daten und ihre Anordnung eine von vielen, viele, viele mögliche zufällige Beispiele sind. Weder die Datenwerte noch ihre räumliche Anordnung sind fest. Die Normalisierungsnullhypothese ist nur geeignet, wenn die Datenwerte normal verteilt sind.
Zusätzliche Ressourcen:
- Ebdon, David. Statistics in Geography. Blackwell, 1985.
- Mitchell, Andy. The Esri Guide to GIS Analysis, Volume 2. Esri Press, 2005.
- Goodchild, M.F., Spatial Autocorrelation. Catmog 47, Geo Books, 1986