Statistische Analyse

In GIS-Daten sind Informationen zu den Attributen von Features sowie zu deren Positionen enthalten. Anhand dieser Informationen werden Karten erstellt, die visuell analysiert werden können. Mit statistischen Analysen können Sie weitere Informationen aus den GIS-Daten gewinnen, die bei einem einfachen Blick auf eine Karte nicht ersichtlich sind. Diese Informationen geben beispielsweise an, wie Attributwerte verteilt sind, ob räumliche Trends in den Daten vorhanden sind und ob die Features räumliche Muster bilden. Im Unterschied zu Abfragefunktionen (wie "Identifizieren" oder "Auswahl"), die Informationen zu einzelnen Features liefern, werden durch statistische Analysen die Merkmale einer ganzen Gruppe von Features dargestellt.

Einige der in diesem Dokument beschriebenen Verfahren für statistische Analysen sind hervorragend für interaktive Anwendungen wie ArcMap geeignet, die Ihnen das Auswählen und Visualisieren von Daten in einer Ad-hoc-Situationen und ständig sich ändernden Umgebungen ermöglicht. Einige der hier erläuterten Methoden befinden sich in den Menüs und Werkzeugleisten von ArcMap, und es gibt keine entsprechenden Geoverarbeitungswerkzeuge. Andere Methoden, z. B. die Werkzeuge für räumliche Statistiken, werden hingegen nur als Geoverarbeitungswerkzeuge implementiert.

Einsatzgebiete der statistischen Analyse

Mithilfe der statistischen Analyse werden meist Daten untersucht. Sie können beispielsweise die Verteilung von Werten für ein bestimmtes Attribut untersuchen oder Ausreißer (extrem hohe oder niedrige Werte). Diese Informationen sind hilfreich beim Definieren von Klassen und Bereichen auf einer Karte, beim Reklassifizieren von Daten oder beim Suchen nach Datenfehlern.

Im folgenden Beispiel wurden Statistiken für die Verteilung von älteren Bürgern nach Zählbezirken in der entsprechenden Region (Prozentsatz der 65-jährigen und älter in den einzelnen Gebieten) berechnet, einschließlich des Mittelwerts und der Standardabweichung, sowie ein Histogramm mit der Verteilung von Werten. In den meisten Bezirken liegt der Prozentsatz unter dem Mittelwert, in einigen Bezirken ist der Prozentsatz jedoch sehr hoch.

Summenstatistiken und Histogramm ergänzen die Symbologie

Mithilfe statistischer Analysen können auch Zusammenfassungen von Daten erstellt werden. Häufig erfolgt dies für Kategorien, beispielsweise kann die Gesamtfläche für die einzelnen Landnutzungskategorien berechnet werden. Sie können auch räumliche Zusammenfassungen erstellen. So können Sie z. B. die durchschnittliche Höhenlage der einzelnen Wassereinzugsgebiete berechnen. Anhand von Zusammenfassungsdaten können Sie ein besseres Verständnis der Bedingungen in einem Untersuchungsgebiet erlangen.

Im folgenden Beispiel wurden Summenstatistiken für die einzelnen Flächennutzungsklassen berechnet. In diesen werden die Anzahl der Flurstücke in der jeweiligen Klasse, die Größe des kleinsten und des größten Flurstücks, die durchschnittliche Flurstückgröße sowie die Gesamtfläche in der Klasse angezeigt.

Die Größe von Flurstück-Features kann je nach Flächennutzungsklasse variieren. Statistiken können das Muster aufzeigen.
Summenstatistiken können Muster in den Daten aufzeigen.

Mit statistischen Analysen können Sie auch räumliche Muster bestimmen und bestätigen, beispielsweise das Zentrum einer Gruppe von Features, der Richtungstrend oder möglicherweise von den Features gebildete Cluster. Muster können auf einer Karte ersichtlich sein. Anhand der Karte Schlussfolgerungen zu ziehen, kann sich jedoch als schwierig erweisen – durch das Klassifizieren und Symbolisieren der Daten können Muster verschleiert oder zu stark betont werden. Mit statistischen Funktionen werden die zugrunde liegenden Daten analysiert. Damit erhalten Sie ein Maß, mit dem Sie das Vorhandensein und die Bedeutung der Muster nachweisen können.

Im Folgenden finden Sie ein Beispiel für Analysen, in denen der arithmetische Mittelpunkt einer Einbruchsserie und die Ellipse der Standardabweichungen für eine Reihe von Elchsichtungen (die den Richtungstrend angibt) aufgezeigt werden.

Räumliche Statistiken können geographische Muster oder Trends aufzeigen.

Im folgenden Beispiel wird eine Analyse dargestellt, die statistisch signifikante Cluster von Zählbezirken mit vielen (orange) oder wenigen (blau) älteren Bürgern aufzeigen.

Räumliche Statistiken können geographische Muster oder Trends aufzeigen.

Typen der statistischen Analyse

Statistische Analysefunktionen in ArcGIS Desktop sind entweder nicht räumlich (tabellarisch) oder räumlich (die Lage wird berücksichtigt).

Mit nicht räumlichen Statistiken werden Attributwerte analysiert, die Features zugeordnet sind. Auf die Werte wird direkt aus der Feature-Attributtabelle eines Layers zugegriffen. Beispiele für nicht räumliche Statistiken sind der Mittelwert und die Standardabweichung.

In diesem Beispiel wurde mit dem Werkzeug Summenstatistik die Anzahl der unbebauten Flurstücke für eine Reihe von Zählungsbezirken berechnet, einschließlich der Summe, des Mittelwerts und der Standardabweichung.

Summenstatistik

Diagramme und Grafiken wie Histogramme oder Q-Q-Plots bieten weitere Möglichkeiten zum Analysieren von nicht räumlichen Daten. In allen Fällen werden nur die Werte analysiert. Die Lage der Features, denen die Werte zugeordnet sind, sowie möglicherweise vorhandene räumliche Beziehungen zwischen den Features werden nicht berücksichtigt.

In diesem Beispiel wird im Histogramm die Verteilung der unbebauten Flurstücke dargestellt (die Anzahl der unbebauten Flurstücke auf der X-Achse und die Anzahl der Zählbezirke in den einzelnen Bereichen auf der Y-Achse).

Histogramme zeigen die Verteilung von Datenwerten auf.

Mit einem Q-Q-Plot für normalverteilte Daten wird untersucht, inwieweit die Verteilung einer Gruppe von Werten einer Standardnormalverteilung (der typischen Glockenkurve bei Darstellung in einem Histogramm) nahe kommt. Die Linie im Q-Q-Plot für normalverteilte Daten stellt die erwarteten Werte für eine Normalverteilung dar: Je näher die Werte an der Linie liegen, desto eher liegt eine Normalverteilung vor. Im vorliegenden Beispiel liegt die Konzentration des chemischen Elements Phosphor für eine Reihe von Bodenproben nahe an einer Normalverteilung.

In einem Q-Q-Plot für normalverteilte Daten werden Verteilungen von Datenwerten mit einer Normalverteilung verglichen.

Das Werkzeug "Normal QQ Plot" ist eines der Werkzeuge zum Untersuchen von Daten, die mit der Erweiterung "Geostatistical Analyst" bereitgestellt werden.

In der räumlichen Statistik liegt der Schwerpunkt hingegen auf den räumlichen Beziehungen zwischen Features. Es wird untersucht, wie kompakt oder gestreut die Features sind, ob sie in einer bestimmten Richtung ausgerichtet sind und ob sie Cluster bilden. Die räumliche Beziehung wird normalerweise als Entfernung (Abstand zwischen den Features) festgelegt, es können jedoch auch andere Wechselwirkungen zwischen Features zugrunde gelegt werden.

Im folgenden Beispiel wird die Ausgabe des Werkzeugs Standardentfernung (grafisch als Kreis dargestellt) anhand der Entfernung der einzelnen Wildsichtungen von einem berechneten Zentrum der Sichtungen berechnet.

Standardentfernung und arithmetischer Mittelpunkt einer Gruppe von Punkten

In einigen räumlichen Statistiken werden sowohl die räumlichen Beziehungen von Features als auch die Werte eines Attributs berücksichtigt, das den Features zugeordnet ist. Diese werden als gewichtete Statistiken bezeichnet. Die räumliche Beziehung wird durch die Werte beeinflusst. Mit gewichteten räumlichen Statistiken wird bestimmt, ob Features mit ähnlichen Werten gemeinsam auftreten. So kann beispielsweise ermittelt werden, ob Schulen mit ähnlich guten bzw. schlechten Testergebnissen Cluster bilden.

Im folgenden Beispiel wird das Zentrum von Parks nach der Anzahl der Besucher der einzelnen Parks gewichtet (diese wird durch die Größe der grünen Kreise dargestellt).

Gewichteter arithmetischer Mittelpunkt von Punkten

Statistischen Funktionen können auch danach klassifiziert sein, ob sie beschreibend oder schlussfolgernd sind. Beschreibende Statistiken fassen Merkmale von analysierten Werten bzw. Features zusammen (den Mittelwert, die Häufigkeitsverteilung der Werte oder den Richtungstrend einer Gruppe von Features). Beschreibende Statistiken empfehlen sich bei Vergleichen von zwei Gruppen von Features für denselben Bereich.

Im folgenden Beispiel wird die Verteilung älterer Bürger (oben) mit der Verteilung von Kindern unter fünf Jahren (unten) für dieselbe Auswahl von Zählbezirken verglichen.

Histogramme und Summenstatistiken ermöglichen den Vergleich von Bevölkerungs-Features.

Im folgenden Beispiel zeigen die Standardentfernungskreise für die indianische und die afroamerikanische Bevölkerung, dass die Verteilung der afroamerikanischen Bevölkerung in diesem Gebiet viel kompakter ist.

Standardentfernung und arithmetische Mittelpunkte ermöglichen das Vergleichen von Bevölkerungs-Features.

In schlussfolgernden Statistiken wird mithilfe der Wahrscheinlichkeitstheorie (basierend auf bekannten Werten) das wahrscheinliche Auftreten von Werten prognostiziert bzw. die Wahrscheinlichkeit bewertet, dass ein Muster bzw. ein Trend in den Daten nicht auf Zufälle zurückzuführen ist. Die Funktion bietet ein Maß für das Muster oder die Beziehung. Anschließend können Sie einen statistischen Test für dieses Maß ausführen, um zu bestimmen, ob dieses bei einem bestimmten Übereinstimmungsniveau signifikant ist. Wenn statistische Analysen nahe legen, dass Einbrüche in Clustern verübt werden, führen Sie einen Test aus, um die Wahrscheinlichkeit zu bestimmen, dass diese Cluster auf Zufälle zurückgehen. Sie stellen beispielsweise fest, dass eine Wahrscheinlichkeit von 90 Prozent besteht, dass die Cluster nicht aufgrund von Zufällen auftreten. Dies legt nahe, dass die Einbrüche in gewisser Weise miteinander in Verbindung stehen. Zum Bestimmen der Wahrscheinlichkeit wird beim Test das Maß für die vorhandenen Features mit dem erwarteten Maß für dieselbe Menge der über dasselbe Gebiet verteilten Features verglichen, die jedoch eine Zufallsverteilung aufweisen.

Im folgenden Beispiel werden auf der linken Karte Cluster von Zählbezirken dargestellt, in denen eine hohe Anzahl (orange) bzw. eine geringe Anzahl (blau) von älteren Bürgern lebt, bei einer Wahrscheinlichkeit von 90 Prozent. Auf der rechten Karte hingegen werden Cluster bei einer Wahrscheinlichkeit von 99 Prozent abgebildet.

Vergleich der festgestellten Cluster bei unterschiedlichen Wahrscheinlichkeiten

Statistische Analysefunktionen

Die statistischen Funktionen in ArcGIS Desktop befinden sich in ArcMap, ArcCatalog und der Geoverarbeitung sowie in zwei Erweiterungen: Spatial Analyst und Geostatistical Analyst.

Tabellenstatistiken

Grundlegende beschreibende Statistiken mit einer Zusammenfassung der Werte für ein einziges Feld sind in ArcGIS Desktop an verschiedenen Stellen verfügbar: im Tabellenfenster in ArcMap, auf der Registerkarte mit der Tabellenvorschau in ArcCatalog sowie im Toolset "Statistiken" (in der Toolbox "Analysis").

Funktion

Position

Statistiken

Ausgabe

Option im Menü "Statistiken"

Tabellenfenster in ArcMap oder Registerkarte mit Tabellenvorschau in ArcCatalog

Anzahl Minimum Maximum Summe Mittelwert Standardabweichung Häufigkeit Histogramm

Ergebnisse werden in einem Fenster angezeigt.

Werkzeug "Summenstatistik"

Toolbox "Analysis"/Toolset "Statistiken"

Minimum Maximum Summe Mittelwert Standardabweichung Bereich Erste(r) Letzter(r)

Ergebnisse werden in einer neuen Tabelle ausgegeben.

Tabelle mit den wichtigsten Funktionen der Summenstatistik für ein einzelnes Feld

Zum Zusammenfassen eines Feldes anhand eines oder mehrerer Felder (z. B. zum Zählen der Flurstücke in den einzelnen Flächennutzungsklassen, zum Summieren der Flächen in den einzelnen Flächennutzungsklassen oder zum Bestimmen der durchschnittlichen Flurstückgröße in den einzelnen Klassen) können Sie die Option "Feldstatistik" im Tabellenfenster von ArcMap oder das Werkzeug Häufigkeit (Frequency) im Toolset "Statistiken" der Toolbox "Analysis" verwenden.

Funktion

Position

Statistiken

Ausgabe

Option im Menü "Feldstatistik"

Tabellenfenster von ArcMap (mit der rechten Maustaste auf Feldnamen klicken)

Minimum Maximum Durchschnitt (Mittelwert) Summe Standardabweichung Varianz

Ergebnisse werden in einer neuen Tabelle ausgegeben.

Werkzeug Häufigkeit (Frequency)

Toolbox "Analysis"/Toolset "Statistiken"

Anzahl Summe

Ergebnisse werden in einer neuen Tabelle ausgegeben.

Tabelle mit den wichtigsten Funktionen der Summenstatistik für mehrere Felder

Räumliche Statistiken

Die Toolbox "Spatial Statistics" enthält eine Reihe von statistischen Routinen zum Analysieren der Verteilung von Features, zum Analysieren von Mustern und zum Bestimmen von Clustern.

Funktionsbereich

Toolset

Werkzeuge

Messen von geographischen Verteilungen

Geographische Verteilungen werden gemessen

Arithmetischer Mittelpunkt Zentrales Feature Standardabweichung Richtungsverteilung (Standardabweichungsellipse) Linearer Richtungsmittelwert

Analyse von geographischen Mustern

Muster werden analysiert

Durchschnittlicher nächster Nachbar Räumliche Autokorrelation (Morans I) Clustering von hohen/tiefen Werten (Getis-Ord General G)

Analyse von geographischen Clustern

Zuordnungs-Cluster

Cluster- und Ausreißeranalyse (Anselin Local Morans I) Hot Spot-Analyse (Getis-Ord Gi*)

Funktionen der Werkzeuge in der Toolbox "Spatial Statistics" und zugehöriges Toolset

Raster-Statistik

Die Erweiterung Spatial Analyst bietet eine Reihe von statistischen Funktionen, mit denen Raster analysiert werden können, insbesondere um Attributwerte zusammenzufassen und die Summenstatistiken Zellen in einem neuen Raster-Layer zuzuweisen. Diese befinden sich in verschiedenen anderen Toolsets der Toolbox "Spatial Analyst".

Werkzeug

Position

Eingabe

Ausgabe

Funktion

Cell Statistics

Toolset "Lokal"

Mehrere Raster

Raster

Hiermit wird die angegebene Statistik für jede Zelle auf der Grundlage mehrerer Eingaben berechnet.

Focal Statistics

Toolset "Nachbarschaft"

Raster

Raster

Fasst die Werte für ein Raster in einer definierten Nachbarschaft um die einzelnen Zellen zusammen und weist der betreffenden Zelle im Ausgabe-Raster den Wert zu.

Point Statistics

Toolset "Nachbarschaft"

Punkt-Features

Raster

Fasst die Werte für Punkt-Feature-Attribute in einer definierten Nachbarschaft zusammen und weist Zellen im Ausgabe-Raster Werte zu.

Line Statistics

Toolset "Nachbarschaft"

Linien-Features

Raster

Fasst die Werte für Linien-Feature-Attribute in einer definierten Nachbarschaft zusammen und weist Zellen im Ausgabe-Raster Werte zu.

Zonale Statistik

Toolset "Zonal"

Raster- oder Polygon-Features

Raster oder Summentabelle

Fasst Werte einer Raster-Oberfläche nach Kategorien oder Klassen (Zonen) des Eingabe-Rasters oder Polygon-Datasets zusammen.

Übersichtstabelle der Raster-Statistik-Werkzeuge

Werkzeuge zum Untersuchen von Daten

Bei der Erweiterung Geostatistical Analyst liegt der Schwerpunkt auf dem Erstellen von Oberflächen aus einer Reihe von Referenzpunkten. Darüber hinaus enthält sie auch Werkzeuge zum visuellen Untersuchen von Daten mithilfe von Diagrammen und Grafiken. Mit diesen wird häufig vor dem Erstellen der Oberfläche entschieden, welche Parameter für eine bestimmte Datenmenge verwendet werden sollen. Mit den Werkzeugen kann jedoch auch eine allgemeine Untersuchung der Daten vorgenommen werden. Mit den Werkzeugen können Sie die Verteilung der Werte untersuchen, Sie können bestimmen, ob ein Richtungstrend in den Daten vorliegt oder ob Beziehungen zwischen zwei Attributen bestehen (z. B. ob sich Werte gleichermaßen ändern oder ob ein umgekehrter Trend vorliegt). Die Werkzeuge sind über die Option Explore Data auf der Werkzeugleiste "Geostatistical Analyst" verfügbar.

Verwandte Themen


7/10/2012