Funktionsweise von "Iso Cluster"
Das Werkzeug Iso Cluster verwendet ein geändertes iteratives Optimierungs-Cluster-Verfahren, das auch als Migrations-Mittelwert-Technik bezeichnet wird. Der Algorithmus trennt alle Zellen in die vom Benutzer angegebene Anzahl eindeutiger unimodaler Gruppen im mehrdimensionalen Raum der Eingabebänder. Dieses Werkzeug wird am häufigsten als Vorbereitung für die ungeordnete Klassifizierung verwendet.
Die Vorsilbe Iso des Isodaten-Cluster-Algorithmus ist eine Abkürzung für die "iterative self-organizing" (iterativ selbstorganisierende) Methode zur Durchführung der Cluster-Bildung. Dieser Typ der Cluster-Bildung verwendet einen Prozess, bei dem während jeder Iteration alle Beispiele den bestehenden Cluster-Mittelpunkten zugeordnet und neue Mittelwerte für jede Klasse neu berechnet werden. Die optimale Anzahl festzulegender Klassen ist normalerweise nicht bekannt. Daher sollte eine zurückhaltend hohe Zahl eingegeben werden und dann die resultierenden Cluster analysiert und die Funktion mit einer reduzierten Anzahl von Klassen erneut ausgeführt werden.
Der Iso Cluster-Algorithmus ist ein iterativer Prozess zum Berechnen der minimalen euklidischen Entfernung, wenn jede Kandidatenzelle einem Cluster zugewiesen wird. Der Prozess beginnt mit beliebigen Mittelwerten, die von der Software zugewiesen werden, einer für jeden Cluster (Sie geben die Anzahl der Cluster vor). Jede Zelle wird dem nächsten dieser Mittelwerte zugewiesen (alle im mehrdimensionalen Attributraum). Auf Grundlage der Attributentfernungen der Zellen, die nach der ersten Wiederholung zum Cluster gehören, werden neue Mittelwerte für jeden Cluster neu berechnet. Der Prozess wird wiederholt: Jede Zelle wird dem nächsten Mittelwert im mehrdimensionalen Attributraum zugewiesen und neue Mittelwerte werden für jeden Cluster auf Grundlage der Mitgliedschaft der Zellen in der Iteration berechnet. Sie können die Anzahl der Iterationen des Prozesses durch Number of iterations angeben. Dieser Wert sollte groß genug sein, um sicherzustellen, dass die Migration von Zellen von einem Cluster zu einem anderen minimal ist, nachdem die angegebene Anzahl von Iterationen ausgeführt wurde; alle Cluster werden stabil. Wenn die Anzahl der Cluster vergrößert wird, sollte auch die Anzahl der Iterationen zunehmen.
Der angegebene Wert Number of classes ist die maximale Anzahl von Clustern, die sich aus der Cluster-Bildung ergeben können. Die Anzahl der Cluster in der Ausgabesignaturdatei ist jedoch möglicherweise nicht die gleiche wie die für die Anzahl der Klassen angegebene Zahl. Diese Situation tritt in den folgenden Fällen auf:
- Die Werte von Daten und die ursprünglichen Cluster-Mittelwerte sind nicht gleichmäßig verteilt. In bestimmten Zellenwertbereichen kann die Häufigkeit des Auftretens dieser Cluster fast gleich null sein. Infolgedessen haben einige der ursprünglich vordefinierten Cluster-Mittelwerte möglicherweise keine Chance, genug Zellenelemente aufzunehmen.
- Cluster, die aus weniger Zellen als dem angegebenen Minimum class size-Wert bestehen, werden am Ende der Iterationen entfernt.
- Cluster werden mit benachbarten Clustern zusammengeführt, wenn die statistischen Werte ähnlich sind, nachdem die Cluster stabil geworden sind. Einige Cluster sind deshalb möglicherweise so nah aneinander und haben so ähnliche Statistiken, dass es eine unnötige Trennung der Daten wäre, wenn sie getrennt bleiben.
Beispiel
Folgendes ist eine von Iso Cluster erstellte Beispielsignaturdatei. Die Datei beginnt mit einer Kopfzeile, die auskommentiert ist und die Werte der Parameter zeigt, die bei der Durchführung der Iso-Cluster-Bildung verwendet werden.
Die Klassennamen sind optional und werden eingegeben, nachdem die Datei mit einem Texteditor erstellt wurde. Jeder Klassenname muss, falls er eingegeben wird, aus einer einzelnen Zeichenfolge bestehen, die nicht mehr als 14 alphanumerische Zeichen umfassen darf.
# Signatures Produced by Clustering of # Stack redlands # number_of_classes=6 max_iterations=20 min_class_size=20 # sampling interval=10 # Number of selected grids /* 3 # Layer-Number Grid-name /* 1 redlands1 /* 2 redlands2 /* 3 redlands3 # Type Number of Classes Number of Layers Number of Parametric Layers 1 4 3 3 # =============================================================== # Class ID Number of Cells Class Name 1 1843 # Layers 1 2 3 # Means 22.8817 60.7656 34.8893 # Covariance 1 169.3975 -69.7444 179.0808 2 -69.7444 714.7072 10.7889 3 179.0808 10.7889 284.0931 # --------------------------------------------------------------- # Class ID Number of Cells Class Name 2 2495 # Layers 1 2 3 # Means 38.4894 132.9775 61.8104 # Covariance 1 414.9621 -19.0732 301.0267 2 -19.0732 510.8439 102.8931 3 301.0267 102.8931 376.5450 # --------------------------------------------------------------- # Class ID Number of Cells Class Name 3 2124 # Layers 1 2 3 # Means 70.3983 82.9576 89.2472 # Covariance 1 264.2680 100.6966 39.3895 2 100.6966 523.9096 75.5573 3 39.3895 75.5573 279.7387 # ------------------------------------------------------------ # Class ID Number of Cells Class Name 4 2438 # Layers 1 2 3 # Means 105.8708 137.6645 130.0886 # Covariance 1 651.0465 175.1060 391.6028 2 175.1060 300.8853 143.2443 3 391.6028 143.2443 647.7345
Referenzliste
Ball, G. H. und D. J. Hall. 1965. A Novel Method of Data Analysis and Pattern Classification. Menlo Park, California: Stanford Research Institute.
Richards, J. A. 1986. Remote Sensing Digital Image Analysis: An Introduction. Berlin: Springer-Verlag.