Producir un análisis de cluster, clases y archivos de firma
En ArcGIS Spatial Analyst, puede crear una clasificación al agrupar celdas ráster en clases o clusters. En general, una clase es una categoría conocida, como bosques, áreas residenciales o cuerpos de agua, mientras que un cluster es un agrupamiento de celdas basadas en la estadística de los atributos. Una firma es un subconjunto de celdas representativas de una clase o un cluster. Las estadísticas de firmas se almacenan en un archivo de firma que se utilizará para clasificar todas las celdas en la intersección de las bandas de entrada.
¿Qué es una clase?
Una clase corresponde a una agrupación significativa de ubicaciones. Por ejemplo, bosque, agua y cosecha alta de trigo son todas clases.
Cada ubicación se caracteriza por un conjunto o vector de valores, un valor para cada variable o banda de entrada. Cada ubicación se puede visualizar como un punto en un espacio de atributos multidimensionales cuyos ejes corresponden a las variables en las bandas de entrada. Un agrupamiento de puntos en este espacio de atributos multidimensionales se denomina cluster, y en este caso, como el cluster hace referencia a algo significativo, también se lo puede considerar una clase. Dos ubicaciones pertenecen al mismo cluster si sus atributos (vector de valores de banda) son similares.
Las clases conocidas pueden formar clusters en el espacio de atributos si las clases se pueden separar, o distinguir, por los valores de atributo. Las ubicaciones que corresponden a clusters naturales en el espacio de atributos se pueden interpretar como clases de estratos de ocurrencia natural.
Identificar clases para una clasificación supervisada
En una clasificación supervisada, conoce en qué clases desea dividir el sitio de estudio, y tiene ubicaciones de muestra en el sitio de estudio que son representativas de cada clase. Por ejemplo, si está creando un mapa de uso del suelo desde una imagen satelital, las clases pueden ser urbana, agua, bosque, campos y carreteras. El objetivo es asignar cada ubicación en el área de estudio a una clase conocida. Cuantas más ubicaciones de muestra se pueden identificar como pertenecientes a una clase, más homogéneos serán los valores de celda en una clase, y mejor la clasificación subsiguiente. Las ubicaciones reales que identifican las ubicaciones de clases conocidas se denominan muestras de capacitación.
Las muestras de capacitación se pueden identificar en una capa de polígono o en un ráster. Cuando se definen las muestras de capacitación, puede identificar un ráster existente como referencia. En general, aparece una composición de color de las tres primeras capas en el ráster como fondo y se utiliza como referencia para identificar las áreas que se agrupan al producir muestras de capacitación.
Crear clusters en una clasificación no supervisada
El primer paso en una clasificación no supervisada es crear clusters. Estadísticamente, los clusters son agrupaciones que ocurren naturalmente en los datos. La herramienta Cluster ISO requiere bandas del ráster de entrada, el número de clases, el nombre del archivo de firma de salida, el número de iteraciones, el tamaño mínimo de clase, y el intervalo en el cual se pueden tomar puntos de muestra desde donde calcular los clusters (los últimos tres parámetros se analizan a continuación).
La herramienta devuelve un archivo de firma que contiene estadísticas multivariantes para un subconjunto de las celdas para los clusters identificados. Los cálculos resultantes identifican qué ubicación de celda pertenece a qué cluster, el valor medio para el cluster y la matriz de varianza-covarianza. Esta información se almacena en un archivo de firma de ASCII. El archivo de firma es esencial en el clustering y la clasificación de las celdas restantes sin muestras.
Almacenar estadísticas de cluster o clase: el archivo de firma
El archivo de firma es un archivo ASCII que almacena las estadísticas multivariantes para cada clase o cluster de interés. El archivo incluye el medio para cada clase o cluster, el número de celdas en la clase o cluster, y la matriz de varianza-covarianza para la clase o el cluster.
El archivo de firma se puede visualizar con cualquier editor de texto.
Para cualquier clase o cluster, los valores de diagonal que se mueven desde la parte superior izquierda hacia la parte inferior derecha en la matriz de varianza-covarianza, son los valores de varianza para las variables que corresponden a las bandas del ráster de entrada identificadas por la intersección de fila/columna en la matriz para las bandas. Todos los otros valores en la matriz son valores de covarianza.
Cómo se determinan los clusters para una clasificación no supervisada
El nombre del algoritmo utilizado para crear clusters en una clasificación no supervisada es Cluster ISO. El prefijo ISO del algoritmo de clustering de isodatos significa Organización automática iterativa, como método de realizar el clustering. Los clusters se calculan utilizando un subconjunto de celdas en el área de estudio. Todos los cálculos de cluster se llevan a cabo en los valores de celda en el espacio de atributos multivariantes y no se basan en características espaciales. Es decir, el valor medio se deriva de los valores de atributos para las distintas bandas de entrada. Los valores de varianza y covarianza se calculan a partir de la variación dentro y entre bandas.
El siguiente ejemplo utiliza un enfoque de clustering ISO o valor medio K. Un ráster de dos bandas se utilizará para explicar la metodología teóricamente. Esta misma metodología trabaja por el total de bandas que se introducen, o en un espacio dimensional n. La siguiente discusión es conceptual para permitir una mejor comprensión del enfoque de clustering ISO.
- Se realiza un gráfico vacío con el rango de valores en la primera banda que se graficó en el eje x y el rango de valores en la segunda banda que se graficó en el eje y.
- Se dibuja una línea de 45 grados y se divide en el número de clases que especifica. El punto central de cada uno de estos segmentos de línea es el valor medio inicial para las clases.
- Cada celda de muestra se dibuja en el gráfico y la distancia desde el punto a cada punto central medio se determina en la línea de 45 grados. La distancia se calcula en el espacio de atributos utilizando el teorema de Pitágoras. Se asigna el punto de muestra al cluster representado por el punto central medio más cercano.
- Se grafica el siguiente punto de muestra y se repite el procedimiento anterior para todos los puntos de muestra.
- El procedimiento anterior itera. Antes de la próxima iteración, se calcula un nuevo punto central medio para cada cluster basado en los valores de las ubicaciones de celda asignados al cluster en la iteración anterior. Con el nuevo punto central medio para cada cluster, se repiten los dos pasos anteriores.
- Se actualizan los valores medios, y se repite el paso anterior. El proceso de iteración para actualizar los valores medios sigue hasta alcanzar el número de iteraciones definido por el usuario o hasta que menos del 2 por ciento de las celdas cambian de un cluster a otro en relación a los valores medios nuevos en una iteración.
El clustering es sensible al rango de valores en cada banda. Este rango de valores determina los valores en el eje x e y desde donde se calculan las distancias euclidianas entre los puntos medio y de muestra. Para que los atributos de cada banda se consideren iguales, el rango de valor para cada banda debe ser similar, ya sea al realizar una clasificación supervisada o un clustering no supervisado. Cuando el rango de valor de una banda es pequeño en relación a las otras bandas, la distancia euclidiana en un espacio multivariante puede ser tan pequeño que varios clusters resultarán en un valor medio de cero. Si uno de los clusters tiene un valor medio de cero, la clasificación final y cualquier otra herramienta multivariante que depende de un archivo de firma fallará. Sería ideal que todas las bandas se normalicen al mismo rango de valor.