Interpretar los resultados de OLS
La salida generada por la herramienta de regresión de OLS, sigla de Ordinary Least Squares (Mínimos cuadrados ordinarios), incluye lo siguiente:
- Clase de entidad de salida
- Informe de los resultados estadísticos de la ventana Mensaje
- Tabla opcional de coeficientes de variable explicativa
- Tabla opcional de diagnósticos de regresión
Cada una de estas salidas se muestra y se describe a continuación como una serie de pasos para ejecutar la regresión de OLS e interpretar sus resultados.
(A) Abra la ventana Resultados, si es necesario. Luego, ejecute la herramienta OLS:
Deberá proporcionar una Clase de entidad de entrada con un Campo de Id. único, la Variable dependiente que quiera modelar, explicar o prever y todas las Variables explicativas. También deberá proporcionar un nombre de ruta para la Clase de entidad de salida y, de manera opcional, nombres de rutas para la Tabla de salida de coeficiente y la Tabla de salida de diagnóstico.
La principal salida es el informe de resumen de OLS, que se escribe en la ventana Resultados. Al hacer clic con el botón derecho del ratón en la entrada Mensajes de la ventana Resultados y seleccionar Visualización, se mostrará el informe del resumen de OLS en el cuadro de diálogo Mensaje. Si ejecuta esta herramienta en primer plano, también se mostrará el informe del resumen en el cuadro de diálogo de progreso.
(B) Examine el informe estadístico siguiendo los pasos numerados que se describen a continuación:
Dividir el informe estadístico
- Evaluación del rendimiento del modelo. Los valores R cuadrado múltiple y R cuadrado ajustado son medidas del rendimiento del modelo. Los valores posibles varían de 0,0 a 1,0. El valor R cuadrado ajustado siempre es un poco más bajo que el valor R cuadrado múltiple, porque refleja la complejidad del modelo (la cantidad de variables) ya que se relaciona con los datos y es, por lo tanto, una medida más exacta del rendimiento del modelo. Si se agrega una variable explicativa adicional al modelo, probablemente el valor R cuadrado múltiple aumente y el valor R cuadrado ajustado disminuya. Supongamos que está creando un modelo de regresión de robo residencial (la cantidad de robos residenciales asociados con cada bloque censal es la variable dependiente, y). Un valor R cuadrado ajustado de 0,84 indicará que el modelo (sus variables explicativas modeladas con una regresión lineal) explica aproximadamente el 84 por ciento de la variación en la variable dependiente. En otras palabras, el modelo proporciona aproximadamente el 84% de la información sobre robo residencial.
- Evaluación de cada variable explicativa en el modelo: coeficiente, probabilidad o probabilidad robusta y Factor de inflación de la varianza (VIF). El coeficiente para cada variable explicativa refleja la fuerza y el tipo de relación que tiene la variable explicativa con la variable dependiente. Cuando el signo asociado con el coeficiente es negativo, la relación es negativa (por ejemplo, cuanto mayor la distancia desde un núcleo urbano, menor la cantidad de robos residenciales). Cuando el signo es positivo, la relación es positiva (por ejemplo, cuanto mayor la población, mayor la cantidad de robos residenciales). Los coeficientes se proporcionan en las mismas unidades que sus variables explicativas asociadas (un coeficiente de 0,005 asociado con una variable que representa el conteo de población puede interpretarse como 0,005 personas). El coeficiente refleja el cambio esperado en la variable dependiente para cada cambio en una unidad en la variable explicativa asociada, manteniendo todas las otras variables constantes (por ejemplo, se espera un incremento de 0,005 en el robo residencial por cada persona adicional en el bloque censal, manteniendo todas las otras variables explicativas constantes). La prueba T se utiliza para evaluar si una variable explicativa es estadísticamente significativa o no. La hipótesis nula es que el coeficiente es, en todos sus propósitos, igual a cero (y, como consecuencia, NO ayuda al modelo). Cuando la probabilidad o la probabilidad robusta (valores p) es muy pequeña, la posibilidad de que el coeficiente sea esencialmente cero también es pequeña. Si la prueba Koenker (ver abajo) es estadísticamente significativa, utilice las probabilidades robustas para evaluar la importancia estadística de la variable explicativa. Las probabilidades estadísticamente significativas tienen un asterisco (*) junto a ellas. Una variable explicativa asociada con un coeficiente estadísticamente significativo es importante para el modelo de regresión si la teoría o el sentido común admite una relación válida con la variable dependiente, si la relación modelada es principalmente lineal, y si la variable no es redundante para ninguna otra variable explicativa en el modelo. El VIF mide la redundancia entre las variables explicativas. Como regla práctica, las variables explicativas asociadas con los valores del VIF mayores que 7,5 aproximadamente deben quitarse (de a uno por vez) del modelo de regresión. Si, por ejemplo, tiene una variable de población (la cantidad de personas) y una variable de empleo (la cantidad de personas con empleo) en el modelo de regresión, probablemente descubrirá que están asociadas con valores del VIF que indican que ambas variables están proporcionando la misma información, y debe quitar una del modelo.
- Evaluación de la importancia del modelo. Tanto el el índice estadístico F conjunto como el índice estadístico de Wald conjunto son medidas de la importancia estadística general del modelo. El índice estadístico F conjunto es confiable únicamente cuando el índice estadístico de Koenker (BP) (ver abajo) no es estadísticamente significativo. Si el índice estadístico de Koenker (BP) es significativo, debe consultar el índice estadístico de Wald conjunto para determinar la importancia general del modelo. La hipótesis nula para estas dos pruebas es que las variables explicativas del modelo NO son efectivas. Para un nivel de confianza del 95 por ciento, un valor p (probabilidad) menor que 0,05 indica que el modelo es estadísticamente significativo.
- Evaluación de la estacionariedad. El índice estadístico de Koenker (BP) (índice estadístico de Breusch-Pagan estudentizado de Koenker) es una prueba para determinar si las variables explicativas del modelo tienen una relación consistente con la variable dependiente, tanto en el espacio geográfico como en el espacio de datos. Cuando el modelo es consistente en el espacio geográfico, los procesos espaciales representados por las variables explicativas se comportan de la misma manera en cualquier parte del área de estudio (los procesos son estacionarios). Cuando el modelo es consistente en el espacio de datos, la variación en la relación entre los valores previstos y cada variable explicativa no cambia cuando cambian las magnitudes de la variable explicativa (no hay heterocedasticidad en el modelo). Supongamos que quiere prever el crimen y una de sus variables explicativas es el ingreso. El modelo tendrá una heterocedasticidad problemática si las predicciones fueron más exactas para las ubicaciones con ingresos medios bajos que para las ubicaciones con ingresos medios altos. La hipótesis nula para esta prueba es que el modelo es estacionario. Para un nivel de confianza del 95 por ciento, un valor p (probabilidad) menor que 0,05 indica una heterocedasticidad o no estacionariedad estadísticamente significativa. Cuando los resultados de esta prueba sean estadísticamente significativos, consulte los errores y las probabilidades estándar del coeficiente robusto para evaluar la efectividad de cada variable explicativa. Los modelos de regresión con no estacionariedad estadísticamente significativa generalmente son buenos candidatos para el análisis de Regresión ponderada geográficamente (GWR).
- Evaluación de la influencia del modelo. El índice estadístico de Jarque-Bera indica si los residuales (los valores de la variable dependiente observada o conocida menos los valores previstos o estimados) se distribuyen normalmente o no. La hipótesis nula para esta prueba es que los residuales son distribuidos normalmente, por lo tanto, si construyera un histograma de dichos residuales, se parecerían a la curva de Bell o a la distribución gaussiana. Cuando el valor p (probabilidad) de esta prueba es bajo (menor que 0,05 para un nivel de confianza del 95 por ciento, por ejemplo), los residuales no son distribuidos normalmente, lo que indica que el modelo es tendencioso. Si también cuenta con una autocorrelación espacial estadísticamente significativa de los residuales (ver abajo), la influencia puede ser el resultado de una especificación incorrecta del modelo (una variable clave está faltando en el modelo). Los resultados de un modelo de OLS con especificación incorrecta no son confiables. También puede producirse una prueba de Jarque-Bera estadísticamente significativa si intenta modelar relaciones no lineales, si los datos incluyen valores atípicos influyentes o cuando hay una heterocedasticidad fuerte (ver arriba).
- Evaluación de la autocorrelación espacial residual. Siempre ejecute la herramienta Autocorrelación espacial (I de Moran) en los residuales de regresión para asegurarse de que son espacialmente aleatorios. El clustering estadísticamente significativo de los residuales altos o bajos (predicciones altas o bajas del modelo) indica que falta una variable clave en el modelo (especificación incorrecta). No se puede confiar en los resultados de OLS cuando hay una especificación incorrecta del modelo.
- Finalmente, revise la sección con el título Cómo dejan de funcionar los modelos de regresión en el documento Conceptos básicos del análisis de regresión para verificar que el modelo de regresión de OLS esté especificado correctamente. Tenga en cuenta también que existe una sección con el título Notas de interpretación al final del informe estadístico de OLS para ayudarlo a recordar el propósito de cada prueba estadística.
(C) Examine los residuales de la Clase de entidad de salida. Las predicciones altas y bajas de un modelo de regresión especificado correctamente serán distribuidas de manera aleatoria. El clustering de las predicciones altas y bajas es evidencia de que falta al menos una variable explicativa clave. Examine los patrones en los residuales del modelo para determinar si proporcionan pistas acerca de qué pueden ser esas variables que faltan. En general, si ejecuta Análisis de punto caliente en los residuales de regresión, le ayudará a ver los patrones generales en las predicciones altas y bajas.
(D) Consulte las tablas de diagnóstico y de coeficientes. La creación de las tablas de diagnóstico y de coeficientes es opcional. Mientras esté buscando un modelo efectivo, puede elegir no crear estas tablas. El proceso de construcción del modelo es iterativo, y probablemente probará una gran cantidad de modelos diferentes (variables explicativas diferentes) hasta que encuentre algunos buenos. Puede utilizar el Criterio de información de Akaike corregido (AICc) en el informe para comparar diferentes modelos. El modelo con el valor del AICc más pequeño es el mejor (es decir, teniendo en cuenta la complejidad del modelo, el modelo con el AICc más pequeño se ajusta mejor a los datos observados). Siempre debe crear las tablas de diagnóstico y coeficientes para los modelos de OLS finales, para capturar los elementos más importantes del informe de OLS, incluida la lista de variables explicativas utilizada en el modelo con los coeficientes, los errores estándar y las probabilidades, así como también los resultados para cada prueba de diagnóstico. La tabla de diagnóstico incluye una descripción de cada prueba junto con algunas pautas para interpretar los resultados de las pruebas.
Recursos adicionales
Existen varios recursos buenos para ayudarlo a obtener más información sobre la regresión de OLS. Comience leyendo la documentación Conceptos básicos del análisis de regresión o viendo el seminario Web gratuito de una hora ESRI Virtual Campus Conceptos básicos del análisis de regresión. Después, consulte un Tutorial de análisis de regresión.