Análisis estadístico
La información sobre los atributos de las entidades así como también sus ubicaciones es inherente en los datos SIG. Esta información se utiliza para crear mapas que se pueden analizar de manera visual. El análisis estadístico ayuda a extraer información adicional de los datos SIG que podría no ser evidente mirando el mapa simplemente; se trata de información sobre, por ejemplo, cómo se distribuyen los valores de atributos, si hay tendencias espaciales en los datos, o si las entidades forman patrones espaciales. A diferencia de las funciones de consulta, tales como identificar o selección, que proporcionan información sobre las entidades individuales, el análisis estadístico revela las características de un conjunto de entidades como un todo.
Algunas de las técnicas del análisis estadístico que se describen en este documento se adaptan mejor a las aplicaciones interactivas, tales como ArcMap, que le permiten seleccionar y visualizar los datos en un entorno fluido y ad hoc. Algunos de los métodos que se describen aquí se encuentran en los menús y las barras de herramientas de ArcMap y no tienen una herramienta de geoprocesamiento equivalente. Otros métodos, tales como las herramientas de estadísticas espaciales, sólo se implementan como herramientas de geoprocesamiento.
Usos del análisis estadístico
El análisis estadístico, a menudo, se utiliza para explorar los datos, por ejemplo, para examinar la distribución de valores para un atributo en particular o para encontrar valores atípicos (valores extremadamente altos o bajos). Contar con esta información es útil cuando se definen clases y rangos en un mapa, cuando se reclasifican datos o cuando se buscan errores.
En el siguiente ejemplo, las estadísticas se calcularon para la distribución de los ciudadanos de tercera edad según el distrito censal de esta región (porcentaje de los que tienen 65 años o más en cada distrito), incluidos el valor medio y la desviación estándar, así como también un histograma que muestra la distribución de los valores. La mayoría de los distritos tienen un porcentaje más bajo de personas de la tercera edad que el valor medio, pero pocos distritos tienen un porcentaje muy alto.
Otro uso del análisis estadístico es resumir los datos. Por lo general, esto se realiza por categorías, como calcular el área total en cada categoría de uso del suelo. También se pueden crear resúmenes espaciales, como calcular la elevación promedio para cada cuenca hidrográfica. El resumen de los datos es útil para comprender mejor las condiciones de un área de estudio.
En el siguiente ejemplo, el resumen de estadísticas se calculó para cada clase de uso del suelo al mostrar la cantidad de parcelas en esa clase, el tamaño de la parcela más pequeña y la más grande, el tamaño promedio de las parcelas y el área total en la clase.
El análisis estadístico también se utiliza para identificar y confirmar los patrones espaciales, tales como el centro de un grupo de entidades, la tendencia direccional o si las entidades forman clusters. Aunque los patrones pueden ser evidentes en un mapa, podría ser difícil tratar de sacar conclusiones desde un mapa; la forma en que se clasifican y simbolizan los datos puede oscurecer o exagerar los patrones. Las funciones estadísticas analizan los datos subyacentes y proporcionan una medida que se puede utilizar para confirmar la existencia y la fortaleza del patrón.
A continuación, se incluye un ejemplo de los análisis que muestran el centro medio de un conjunto de robos y la elipse de desviación estándar para un conjunto de avistamientos de alces (al mostrar la tendencia direccional).
A continuación, se incluye un ejemplo de un análisis que muestra los clusters estadísticamente significativos de los distritos censales con muchos ciudadanos de la tercera edad (naranja) o con pocos (azul).
Tipos de análisis estadísticos
Las funciones de análisis estadístico en ArcGIS Desktop son no espaciales (tabulares) o espaciales (contienen la ubicación).
Las estadísticas no espaciales se utilizan para analizar los valores de atributos asociados con las entidades. Se accede a los valores directamente desde una tabla de atributos de entidades de una capa. Ejemplos de estadísticas no espaciales incluyen el valor medio y la desviación estándar.
En este ejemplo, la herramienta Resumen de estadísticas se utilizó para calcular la cantidad de parcelas vacías para un conjunto de distritos censales, incluidos el total, el valor medio y la desviación estándar.
Los diagramas y gráficos, tales como un histograma o diagramas cuantil-cuantil, son otra manera de analizar los datos no espaciales. En todos los casos, sólo se analizan los valores. No se consideran las ubicaciones de las entidades con las que se asocian los valores ni ninguna relación espacial entre las entidades.
En este ejemplo, el histograma muestra la distribución de las parcelas vacías (la cantidad de parcelas vacías a lo largo del eje x y la cantidad de distritos en cada rango a lo largo del eje y).
Se utiliza un Diagrama cuantil-cuantil normal para evaluar la similitud de la distribución de un conjunto de valores con el de una distribución normal estándar (la típica curva de campana, cuando se muestra en un histograma). La línea en el diagrama cuantil-cuantil normal muestra los valores esperados para una distribución normal: mientras más cerca estén los valores de la línea, más se acercará la distribución a lo normal. En este ejemplo, la concentración de los elementos de fósforo para un conjunto de muestras de suelo está cerca de la distribución normal.
La herramienta Diagrama cuantil-cuantil normal es una de las herramientas de exploración de datos disponible con la extensión de Geostatistical Analyst.
Por otro lado, las estadísticas espaciales se centran en las relaciones espaciales entre las entidades: qué tan compactas o dispersas están las entidades, si están orientadas en una dirección en particular y si forman clusters. La relación espacial generalmente se define como distancia (qué tan alejadas están las entidades) pero también puede tener otras formas de interacción entre entidades.
En el siguiente ejemplo, la salida de la herramienta Distancia estándar (que se muestra de forma gráfica como un círculo) se calcula mediante la distancia de cada avistamiento de la flora y la fauna desde el centro de los avistamientos calculado.
Algunas estadísticas espaciales consideran tanto las relaciones espaciales de las entidades como los valores de un atributo asociado con las entidades. Se conocen como estadísticas ponderadas; la relación espacial depende de los valores. Las estadísticas espaciales ponderadas se utilizan para saber si las entidades que tienen valores similares ocurren juntas, si, por ejemplo, las escuelas con similares puntuaciones de exámenes altas o bajas, forman clusters.
En el siguiente ejemplo, el centro de los parques es ponderado por la cantidad de visitantes en cada parque (que se representa por el tamaño de los círculos verdes).
Las funciones estadísticas también se pueden clasificar según si son descriptivas o deductivas. Las estadísticas descriptivas resumen algunas características de los valores o las entidades que está analizando: el valor medio, la distribución de frecuencia de valores o la tendencia direccional de un grupo de entidades. Las estadísticas descriptivas, a menudo, son útiles para comparar dos conjuntos de entidades para la misma área.
El siguiente ejemplo compara la distribución de los ciudadanos de la tercera edad (parte superior) con la de los niños menores de 5 años (parte inferior) para el mismo conjunto de distritos censales.
En el siguiente ejemplo, los círculos de distancia estándar para la población de indios americanos y de afroamericanos muestran que la distribución de la población afroamericana en esta área es mucho más compacta.
Las estadísticas deductivas utilizan la teoría de la probabilidad ya sea para prever la probable ocurrencia de valores (mediante un conjunto de valores conocidos), o para evaluar la posibilidad de que cualquier patrón o tendencia que vea en los datos no se debe al azar. La función proporciona una medida del patrón o la relación. Luego, realice una prueba estadística sobre esta medida para determinar si es significativa en algún nivel de confianza. Si el análisis estadístico indica que los robos ocurren en los clusters, entonces ejecute una prueba para descubrir la posibilidad de que los clusters ocurren por casualidad. Por ejemplo, puede encontrar que hay una probabilidad del 90 por ciento de que los clusters no ocurrieron por casualidad, lo que indica que los robos pueden estar vinculados de alguna forma. Esencialmente para determinar la probabilidad, la prueba compara la medida que obtiene para las entidades existentes con la medida que esperaría obtener para la misma cantidad de entidades extendidas sobre la misma área, pero distribuidas de manera aleatoria.
En el siguiente ejemplo, el mapa de la izquierda muestra los clusters de los distritos censales que tienen un alto número de ciudadanos de la tercera edad (naranja) o un número bajo (azul), con un nivel de probabilidad del 90 por ciento; el mapa de la derecha muestra los clusters con un nivel de probabilidad del 99 por ciento.
Funciones de análisis estadístico
Las funciones de análisis estadístico en ArcGIS Desktop se localizan en ArcMap, ArcCatalog y geoprocesamiento, así como también dentro de dos extensiones: Spatial Analyst y Geostatistical Analyst
Tabla de estadísticas
Un conjunto fundamental de estadísticas descriptivas que resumen los valores para un sólo campo está disponible desde varias ubicaciones en ArcGIS Desktop: la ventana de tabla en ArcMap, la pestaña vista previa de tabla en ArcCatalog y el conjunto de herramientas Estadísticas (dentro de la caja de herramientas Análisis).
Función |
Ubicación |
Estadísticas |
Salida |
---|---|---|---|
Opción de menú Estadísticas |
Ventana de tabla de ArcMap o pestaña vista previa de tabla de ArcCatalog |
Conteo Mínimo Máximo Suma Valor medio Desviación estándar Histograma de frecuencia |
Los resultados se visualizan en una ventana. |
Herramienta Resumen de estadísticas |
Conjunto de herramientas Estadística/caja de herramientas Análisis |
Mínimo Máximo Suma Valor medio Desviación estándar Rango Primero Último |
Los resultados se escriben en una tabla nueva. |
Para resumir un campo según uno o más campos (por ejemplo, para contar la cantidad de parcelas en cada clase de uso del suelo, sume el área de cada clase de uso del suelo, o busque el tamaño promedio de las parcelas de cada clase), utilice la opción Resumir en la ventana de tabla de ArcMap o la herramienta Frecuencia en el conjunto de herramientas Estadísticas de la caja de herramientas Análisis.
Función |
Ubicación |
Estadísticas |
Salida |
---|---|---|---|
Opción de menú Resumir |
Ventana de tabla de ArcMap (haga clic con el botón derecho del ratón en el nombre del campo) |
Mínimo Máximo Promedio (valor medio) Suma Desviación estándar Varianza |
Los resultados se escriben en una tabla nueva. |
Herramienta Frecuencia |
Conjunto de herramientas Estadística/caja de herramientas Análisis |
Conteo Suma |
Los resultados se escriben en una tabla nueva. |
Estadística espacial
La caja de herramientas Estadística espacial contiene un número de rutinas estadísticas para analizar la distribución de un conjunto de entidades, analizar los patrones e identificar los clusters.
Área funcional |
Conjunto de herramientas |
Herramientas |
---|---|---|
Medidas de distribución geográfica |
Valor medio Centro Entidad central Distancia estándar Distribución direccional (Elipse de desviación estándar) Valor medio direccional lineal |
|
Análisis de patrón geográfico |
Vecino más cercano promedio Autocorrelación espacial (I de Moran) Clustering alto/bajo (G general de Getis-Ord) |
|
Análisis de cluster geográfico |
Análisis de cluster y de valor atípico (I Anselin local de Moran) Análisis de punto caliente (Gi* de Getis-Ord) |
Estadísticas de ráster
La extensión Spatial Analyst incluye varias funciones estadísticas que se pueden utilizar para analizar los rásteres, principalmente para resumir los valores de atributo y asignar el resumen de estadísticas a las celdas en una nueva capa ráster. Se localizan en varios conjuntos de herramientas diferentes con la caja de herramientas Spatial Analyst.
Herramienta |
Ubicación |
Entrada |
Salida |
Qué hace |
---|---|---|---|---|
Rásteres varios |
Ráster |
Calcula la estadística que se especificó para cada celda basada en varias entradas |
||
Ráster |
Ráster |
Resume los valores para un ráster dentro de una vecindad definida alrededor de cada celda y asigna el valor a cada celda en el ráster de salida |
||
Entidades de puntos |
Ráster |
Resume los valores para los atributos de entidades de punto dentro de una vecindad definida y asigna los valores a las celdas en el ráster de salida |
||
Entidades de línea |
Ráster |
Resume los valores para los atributos de entidades de línea dentro de una vecindad definida y asigna los valores a las celdas en el ráster de salida |
||
Entidades poligonales o ráster |
Tabla de resumen o ráster |
Resume los valores de una superficie de ráster según las categorías o clases (zonas) del ráster de entrada o dataset de polígono |
Herramientas de exploración de datos
El Geostatistical Analyst: mientras se centra en la creación de la superficie desde un conjunto de puntos de muestra, también contiene un conjunto de herramientas para la exploración visual de los valores de datos mediante diagramas y gráficos. Por lo general se utilizan antes de la creación de la superficie para decidir qué parámetros utilizar para un conjunto específico de datos pero también se pueden utilizar para explorar el dataset. Las herramientas le permiten explorar la distribución de los valores, si hay una tendencia direccional en los datos y si hay relaciones entre dos atributos (por ejemplo, para ver si los valores varían juntos o de manera inversa). La herramientas están disponibles desde la opción Explorar datos en la barra de herramientas de Geostatistical Analyst.