Análisis estadístico

La información sobre los atributos de las entidades así como también sus ubicaciones es inherente en los datos SIG. Esta información se utiliza para crear mapas que se pueden analizar de manera visual. El análisis estadístico ayuda a extraer información adicional de los datos SIG que podría no ser evidente mirando el mapa simplemente; se trata de información sobre, por ejemplo, cómo se distribuyen los valores de atributos, si hay tendencias espaciales en los datos, o si las entidades forman patrones espaciales. A diferencia de las funciones de consulta, tales como identificar o selección, que proporcionan información sobre las entidades individuales, el análisis estadístico revela las características de un conjunto de entidades como un todo.

Algunas de las técnicas del análisis estadístico que se describen en este documento se adaptan mejor a las aplicaciones interactivas, tales como ArcMap, que le permiten seleccionar y visualizar los datos en un entorno fluido y ad hoc. Algunos de los métodos que se describen aquí se encuentran en los menús y las barras de herramientas de ArcMap y no tienen una herramienta de geoprocesamiento equivalente. Otros métodos, tales como las herramientas de estadísticas espaciales, sólo se implementan como herramientas de geoprocesamiento.

Usos del análisis estadístico

El análisis estadístico, a menudo, se utiliza para explorar los datos, por ejemplo, para examinar la distribución de valores para un atributo en particular o para encontrar valores atípicos (valores extremadamente altos o bajos). Contar con esta información es útil cuando se definen clases y rangos en un mapa, cuando se reclasifican datos o cuando se buscan errores.

En el siguiente ejemplo, las estadísticas se calcularon para la distribución de los ciudadanos de tercera edad según el distrito censal de esta región (porcentaje de los que tienen 65 años o más en cada distrito), incluidos el valor medio y la desviación estándar, así como también un histograma que muestra la distribución de los valores. La mayoría de los distritos tienen un porcentaje más bajo de personas de la tercera edad que el valor medio, pero pocos distritos tienen un porcentaje muy alto.

Resumen de estadísticas y simbología complementaria del histograma

Otro uso del análisis estadístico es resumir los datos. Por lo general, esto se realiza por categorías, como calcular el área total en cada categoría de uso del suelo. También se pueden crear resúmenes espaciales, como calcular la elevación promedio para cada cuenca hidrográfica. El resumen de los datos es útil para comprender mejor las condiciones de un área de estudio.

En el siguiente ejemplo, el resumen de estadísticas se calculó para cada clase de uso del suelo al mostrar la cantidad de parcelas en esa clase, el tamaño de la parcela más pequeña y la más grande, el tamaño promedio de las parcelas y el área total en la clase.

Es posible que el tamaño de la entidad de parcela varíe con la clase de uso del suelo, y las estadísticas pueden mostrar el patrón.
El resumen de estadísticas puede revelar los patrones en los datos.

El análisis estadístico también se utiliza para identificar y confirmar los patrones espaciales, tales como el centro de un grupo de entidades, la tendencia direccional o si las entidades forman clusters. Aunque los patrones pueden ser evidentes en un mapa, podría ser difícil tratar de sacar conclusiones desde un mapa; la forma en que se clasifican y simbolizan los datos puede oscurecer o exagerar los patrones. Las funciones estadísticas analizan los datos subyacentes y proporcionan una medida que se puede utilizar para confirmar la existencia y la fortaleza del patrón.

A continuación, se incluye un ejemplo de los análisis que muestran el centro medio de un conjunto de robos y la elipse de desviación estándar para un conjunto de avistamientos de alces (al mostrar la tendencia direccional).

Las estadísticas espaciales pueden mostrar patrones o tendencias geográficos.

A continuación, se incluye un ejemplo de un análisis que muestra los clusters estadísticamente significativos de los distritos censales con muchos ciudadanos de la tercera edad (naranja) o con pocos (azul).

Las estadísticas espaciales pueden mostrar patrones o tendencias geográficos.

Tipos de análisis estadísticos

Las funciones de análisis estadístico en ArcGIS Desktop son no espaciales (tabulares) o espaciales (contienen la ubicación).

Las estadísticas no espaciales se utilizan para analizar los valores de atributos asociados con las entidades. Se accede a los valores directamente desde una tabla de atributos de entidades de una capa. Ejemplos de estadísticas no espaciales incluyen el valor medio y la desviación estándar.

En este ejemplo, la herramienta Resumen de estadísticas se utilizó para calcular la cantidad de parcelas vacías para un conjunto de distritos censales, incluidos el total, el valor medio y la desviación estándar.

Resumen de estadísticas

Los diagramas y gráficos, tales como un histograma o diagramas cuantil-cuantil, son otra manera de analizar los datos no espaciales. En todos los casos, sólo se analizan los valores. No se consideran las ubicaciones de las entidades con las que se asocian los valores ni ninguna relación espacial entre las entidades.

En este ejemplo, el histograma muestra la distribución de las parcelas vacías (la cantidad de parcelas vacías a lo largo del eje x y la cantidad de distritos en cada rango a lo largo del eje y).

Los histogramas muestran la distribución de los valores de datos.

Se utiliza un Diagrama cuantil-cuantil normal para evaluar la similitud de la distribución de un conjunto de valores con el de una distribución normal estándar (la típica curva de campana, cuando se muestra en un histograma). La línea en el diagrama cuantil-cuantil normal muestra los valores esperados para una distribución normal: mientras más cerca estén los valores de la línea, más se acercará la distribución a lo normal. En este ejemplo, la concentración de los elementos de fósforo para un conjunto de muestras de suelo está cerca de la distribución normal.

Un diagrama cuantil-cuantil normal compara las distribuciones de valores de datos con una distribución normal.

La herramienta Diagrama cuantil-cuantil normal es una de las herramientas de exploración de datos disponible con la extensión de Geostatistical Analyst.

Por otro lado, las estadísticas espaciales se centran en las relaciones espaciales entre las entidades: qué tan compactas o dispersas están las entidades, si están orientadas en una dirección en particular y si forman clusters. La relación espacial generalmente se define como distancia (qué tan alejadas están las entidades) pero también puede tener otras formas de interacción entre entidades.

En el siguiente ejemplo, la salida de la herramienta Distancia estándar (que se muestra de forma gráfica como un círculo) se calcula mediante la distancia de cada avistamiento de la flora y la fauna desde el centro de los avistamientos calculado.

Distancia estándar y centro medio de un grupo de puntos

Algunas estadísticas espaciales consideran tanto las relaciones espaciales de las entidades como los valores de un atributo asociado con las entidades. Se conocen como estadísticas ponderadas; la relación espacial depende de los valores. Las estadísticas espaciales ponderadas se utilizan para saber si las entidades que tienen valores similares ocurren juntas, si, por ejemplo, las escuelas con similares puntuaciones de exámenes altas o bajas, forman clusters.

En el siguiente ejemplo, el centro de los parques es ponderado por la cantidad de visitantes en cada parque (que se representa por el tamaño de los círculos verdes).

Centro medio ponderado de los puntos

Las funciones estadísticas también se pueden clasificar según si son descriptivas o deductivas. Las estadísticas descriptivas resumen algunas características de los valores o las entidades que está analizando: el valor medio, la distribución de frecuencia de valores o la tendencia direccional de un grupo de entidades. Las estadísticas descriptivas, a menudo, son útiles para comparar dos conjuntos de entidades para la misma área.

El siguiente ejemplo compara la distribución de los ciudadanos de la tercera edad (parte superior) con la de los niños menores de 5 años (parte inferior) para el mismo conjunto de distritos censales.

Los histogramas y resúmenes de estadísticas son una forma de comparar las poblaciones.

En el siguiente ejemplo, los círculos de distancia estándar para la población de indios americanos y de afroamericanos muestran que la distribución de la población afroamericana en esta área es mucho más compacta.

La distancia estándar y los centros medios son una forma de comparar poblaciones.

Las estadísticas deductivas utilizan la teoría de la probabilidad ya sea para prever la probable ocurrencia de valores (mediante un conjunto de valores conocidos), o para evaluar la posibilidad de que cualquier patrón o tendencia que vea en los datos no se debe al azar. La función proporciona una medida del patrón o la relación. Luego, realice una prueba estadística sobre esta medida para determinar si es significativa en algún nivel de confianza. Si el análisis estadístico indica que los robos ocurren en los clusters, entonces ejecute una prueba para descubrir la posibilidad de que los clusters ocurren por casualidad. Por ejemplo, puede encontrar que hay una probabilidad del 90 por ciento de que los clusters no ocurrieron por casualidad, lo que indica que los robos pueden estar vinculados de alguna forma. Esencialmente para determinar la probabilidad, la prueba compara la medida que obtiene para las entidades existentes con la medida que esperaría obtener para la misma cantidad de entidades extendidas sobre la misma área, pero distribuidas de manera aleatoria.

En el siguiente ejemplo, el mapa de la izquierda muestra los clusters de los distritos censales que tienen un alto número de ciudadanos de la tercera edad (naranja) o un número bajo (azul), con un nivel de probabilidad del 90 por ciento; el mapa de la derecha muestra los clusters con un nivel de probabilidad del 99 por ciento.

Compare el clustering detectado con diferentes niveles de probabilidad.

Funciones de análisis estadístico

Las funciones de análisis estadístico en ArcGIS Desktop se localizan en ArcMap, ArcCatalog y geoprocesamiento, así como también dentro de dos extensiones: Spatial Analyst y Geostatistical Analyst

Tabla de estadísticas

Un conjunto fundamental de estadísticas descriptivas que resumen los valores para un sólo campo está disponible desde varias ubicaciones en ArcGIS Desktop: la ventana de tabla en ArcMap, la pestaña vista previa de tabla en ArcCatalog y el conjunto de herramientas Estadísticas (dentro de la caja de herramientas Análisis).

Función

Ubicación

Estadísticas

Salida

Opción de menú Estadísticas

Ventana de tabla de ArcMap o pestaña vista previa de tabla de ArcCatalog

Conteo Mínimo Máximo Suma Valor medio Desviación estándar Histograma de frecuencia

Los resultados se visualizan en una ventana.

Herramienta Resumen de estadísticas

Conjunto de herramientas Estadística/caja de herramientas Análisis

Mínimo Máximo Suma Valor medio Desviación estándar Rango Primero Último

Los resultados se escriben en una tabla nueva.

Tabla de funciones de resumen de estadísticas fundamentales para un sólo campo

Para resumir un campo según uno o más campos (por ejemplo, para contar la cantidad de parcelas en cada clase de uso del suelo, sume el área de cada clase de uso del suelo, o busque el tamaño promedio de las parcelas de cada clase), utilice la opción Resumir en la ventana de tabla de ArcMap o la herramienta Frecuencia en el conjunto de herramientas Estadísticas de la caja de herramientas Análisis.

Función

Ubicación

Estadísticas

Salida

Opción de menú Resumir

Ventana de tabla de ArcMap (haga clic con el botón derecho del ratón en el nombre del campo)

Mínimo Máximo Promedio (valor medio) Suma Desviación estándar Varianza

Los resultados se escriben en una tabla nueva.

Herramienta Frecuencia

Conjunto de herramientas Estadística/caja de herramientas Análisis

Conteo Suma

Los resultados se escriben en una tabla nueva.

Tabla de funciones de resumen de estadísticas fundamentales para más de un campo

Estadística espacial

La caja de herramientas Estadística espacial contiene un número de rutinas estadísticas para analizar la distribución de un conjunto de entidades, analizar los patrones e identificar los clusters.

Área funcional

Conjunto de herramientas

Herramientas

Medidas de distribución geográfica

Medición de distribuciones geográficas

Valor medio Centro Entidad central Distancia estándar Distribución direccional (Elipse de desviación estándar) Valor medio direccional lineal

Análisis de patrón geográfico

Análisis de patrones

Vecino más cercano promedio Autocorrelación espacial (I de Moran) Clustering alto/bajo (G general de Getis-Ord)

Análisis de cluster geográfico

Asignación de clusters

Análisis de cluster y de valor atípico (I Anselin local de Moran) Análisis de punto caliente (Gi* de Getis-Ord)

Funciones y ubicaciones de la herramienta Estadística espacial

Estadísticas de ráster

La extensión Spatial Analyst incluye varias funciones estadísticas que se pueden utilizar para analizar los rásteres, principalmente para resumir los valores de atributo y asignar el resumen de estadísticas a las celdas en una nueva capa ráster. Se localizan en varios conjuntos de herramientas diferentes con la caja de herramientas Spatial Analyst.

Herramienta

Ubicación

Entrada

Salida

Qué hace

Estadísticas de celdas

Conjunto de herramientas Local

Rásteres varios

Ráster

Calcula la estadística que se especificó para cada celda basada en varias entradas

Estadísticas focalizadas

Caja de herramientas Vecindad

Ráster

Ráster

Resume los valores para un ráster dentro de una vecindad definida alrededor de cada celda y asigna el valor a cada celda en el ráster de salida

Estadísticas de punto

Caja de herramientas Vecindad

Entidades de puntos

Ráster

Resume los valores para los atributos de entidades de punto dentro de una vecindad definida y asigna los valores a las celdas en el ráster de salida

Estadísticas de líneas

Caja de herramientas Vecindad

Entidades de línea

Ráster

Resume los valores para los atributos de entidades de línea dentro de una vecindad definida y asigna los valores a las celdas en el ráster de salida

Estadísticas zonales

Conjunto de herramientas Zonal

Entidades poligonales o ráster

Tabla de resumen o ráster

Resume los valores de una superficie de ráster según las categorías o clases (zonas) del ráster de entrada o dataset de polígono

Tabla de resumen de las herramientas de estadísticas de ráster

Herramientas de exploración de datos

El Geostatistical Analyst: mientras se centra en la creación de la superficie desde un conjunto de puntos de muestra, también contiene un conjunto de herramientas para la exploración visual de los valores de datos mediante diagramas y gráficos. Por lo general se utilizan antes de la creación de la superficie para decidir qué parámetros utilizar para un conjunto específico de datos pero también se pueden utilizar para explorar el dataset. Las herramientas le permiten explorar la distribución de los valores, si hay una tendencia direccional en los datos y si hay relaciones entre dos atributos (por ejemplo, para ver si los valores varían juntos o de manera inversa). La herramientas están disponibles desde la opción Explorar datos en la barra de herramientas de Geostatistical Analyst.

Temas relacionados


7/10/2012