Desktop Help 10.0 - ¿Cómo funciona el Cluster ISO?

La herramienta Cluster ISO utiliza un procedimiento de clustering de optimización iterativo modificado, también conocido como la técnica de migración de valor medio. El algoritmo separa todas las celdas del número de grupos unimodales distintos especificado por el usuario en el espacio multidimesional de las bandas de entrada. Esta herramienta se utiliza generalmente como preparación para la clasificación no supervisada.

El prefijo ISO del algoritmo de clustering de isodatos es una abreviatura para la manera iterativa auto-organizable de realizar un clustering. Este tipo de clustering utiliza un proceso en el que, durante cada iteración, todas las muestras se asignan a centros de cluster existentes y se vuelven a calcular nuevos valores medios para cada clase. Generalmente, se desconoce la cantidad óptima de clases a especificar. Por lo tanto, se recomienda introducir un número alto cauteloso, analizar los clusters resultantes y volver a ejecutar la función con una cantidad de clases reducida.

El algoritmo del Cluster ISO es un proceso iterativo para calcular la distancia euclidiana mínima cuando se asigna cada celda candidata a un cluster. El proceso comienza con la asignación de valores medios arbitrarios por parte del software, una para cada cluster (usted decide la cantidad de clusters). Cada celda se asigna lo más cercana posible a estos valores medios (todas en el espacio de atributos multidimensional). Los nuevos valores medios se vuelven a calcular para cada cluster en base a las distancias de los atributos de las celdas que pertenecen al cluster después de la primera iteración. El proceso se repite: cada celda se asigna al valor medio más cercano en el espacio de atributos multidimensional, y los nuevos valores medios se vuelven a calcular para cada cluster en base a la pertenencia de las celdas de la iteración. Puede especificar la cantidad de iteraciones del proceso mediante el Numero de iteraciones. Este valor debe ser lo suficientemente grande como para garantizar que, después de ejecutar el número de iteraciones especificado, la migración de celdas de un cluster a otro sea mínima; entonces, todos los clusters se volverán estables. Si se aumenta la cantidad de clusters, también se debe aumentar la cantidad de iteraciones.

El valor de Cantidad de clases especificado es la cantidad mínima de clusters que pueden ser el resultado del proceso de clustering. Sin embargo, es posible que la cantidad de clusters en el archivo de firma de salida no sea la misma que la cantidad especificada por la cantidad de clases. Esta situación ocurre en los siguientes casos:

Los valores de los datos y los valores medios de cluster iniciales no están distribuidos uniformemente. En ciertos rangos de valores de celda, la frecuencia de ocurrencia de estos clusters puede estar ausente. Por consiguiente, es posible que algunos de los valores medios de cluster predefinidos originalmente no tengan la oportunidad de absorber suficientes miembros de celda.
Los clusters que tengan menos celdas que el valor de Tamaño de clase mínimo especificado se eliminarán al finalizar las iteraciones.
Los clusters se fusionan con los clusters próximos cuando los valores estadísticos son similares después de que los clusters se vuelven estables. Algunos clusters pueden estar tan cerca entre sí y tener estadísticas tan similares que separarlos ocasionaría la división innecesaria de los datos.

Ejemplo

El siguiente es un archivo de firma de muestra creado por un Cluster ISO. El archivo comienza con un encabezado, que incluye comentarios, que muestra los valores de los parámetros utilizados al realizar el clustering ISO.

Los nombres de las clases son opcionales y se introducen después de crear el archivo mediante un editor de texto. Cada nombre de clase, si se introduce, debe ser una cadena de caracteres simple con no más de 14 caracteres alfanuméricos de longitud.

# Signatures Produced by Clustering of  #    Stack redlands #    number_of_classes=6   max_iterations=20   min_class_size=20 #    sampling interval=10 #    Number of selected grids /*           3 #    Layer-Number   Grid-name /*           1      redlands1 /*           2      redlands2 /*           3      redlands3  # Type  Number of Classes   Number of Layers  Number of Parametric                                                    Layers    1             4                 3                 3 # ===============================================================  # Class ID     Number of Cells      Class Name        1              1843  # Layers   1             2             3 # Means          22.8817       60.7656       34.8893 # Covariance 1      169.3975      -69.7444      179.0808 2      -69.7444      714.7072       10.7889 3      179.0808       10.7889      284.0931 # ---------------------------------------------------------------  # Class ID     Number of Cells      Class Name        2              2495  # Layers   1             2             3 # Means           38.4894      132.9775       61.8104 # Covariance 1       414.9621      -19.0732      301.0267 2       -19.0732      510.8439      102.8931 3       301.0267      102.8931      376.5450 # --------------------------------------------------------------- # Class ID     Number of Cells      Class Name        3              2124  # Layers   1             2             3 # Means           70.3983       82.9576       89.2472 # Covariance 1       264.2680      100.6966       39.3895 2       100.6966      523.9096       75.5573 3        39.3895       75.5573      279.7387 # ------------------------------------------------------------  # Class ID     Number of Cells      Class Name        4              2438  # Layers   1             2             3 # Means 105.8708      137.6645      130.0886 # Covariance 1       651.0465      175.1060      391.6028 2       175.1060      300.8853      143.2443 3       391.6028      143.2443      647.7345

Referencias

Ball, G. H. y D. J. Hall. 1965. A Novel Method of Data Analysis and Pattern Classification. Menlo Park, California: Stanford Research Institute.

Richards, J. A. 1986. Remote Sensing Digital Image Analysis: An Introduction. Berlín: Springer-Verlag.

Temas relacionados

Vista general del conjunto de herramientas de Multivariado

Cluster ISO

Clasificación no supervisada de cluster ISO

Producir un análisis de cluster, clases y archivos de firma

7/11/2012