Interprétation des résultats des moindres carrés ordinaires
La sortie générée par l'outil de régression Moindres carrés ordinaires comprend les éléments suivants :
- classe d'entités en sortie,
- rapport de fenêtre de messages de résultats statistiques,
- table facultative de coefficients des variables explicatives,
- table facultative de diagnostic de régression,
Chacune de ces sorties est présentée et décrite ci-dessous en tant que série d'étapes pour l'exécution de la régression des moindres carrés ordinaires et l'interprétation des résultats correspondants.
(A) Ouvrez la Fenêtre de résultats, si nécessaire. Puis, exécutez l'outil Moindres carrés ordinaires :
Vous devez fournir une Classe d'entités en entrée avec un Champ d'ID unique, la Variable dépendante que vous souhaitez modéliser/expliquer/prévoir et toutes les Variables explicatives. Vous devez également fournir un nom de chemin pour la Classe d'entités en sortie ainsi qu'éventuellement des noms de chemin pour la Table en sortie des coefficients et la Table en sortie des diagnostics.
La sortie principale est le rapport récapitulatif des moindres carrés ordinaires, affiché dans la fenêtre Résultats. En cliquant avec le bouton droit de la souris sur l'entrée Messages dans la fenêtre Résultats et en sélectionnant Affichage, vous affichez le rapport récapitulatif de l'outil Moindres carrés ordinaires dans une boîte de dialogue Message. Si vous exécutez cet outil au premier plan, le rapport récapitulatif est également affiché dans la boîte de dialogue de progression.
(B) Examinez le rapport statistique à l'aide des étapes numérotées décrites ci-dessous :
Dissection du rapport statistique
- Evaluez la performance du modèle. Les deux valeurs R carré multiple et R carré ajusté sont des mesures des performances du modèle. Les valeurs possibles s'échelonnent de 0,0 à 1,0. La valeur R carré ajustée est toujours légèrement inférieure à la valeur R carré multiple, car elle reflète la complexité du modèle (nombre de variables) dans son lien aux données et représente par conséquent une mesure plus précise des performances du modèle. Il y a de fortes chances que l'ajout d'une variable explicative supplémentaire au modèle augmente la valeur R carré multiple, mais cela risque de réduire la valeur R carré ajusté. Supposons que vous créez un modèle de régression du cambriolage résidentiel (le nombre de cambriolages résidentiels associé à chaque îlot de recensement est votre variable dépendante, y). Une valeur R carré ajustée de 0,84 indiquerait que votre modèle (vos variables explicatives modélisées à l'aide de la régression linéaire) explique approximativement 84 pour cent de la variation dans la variable dépendante. Autrement dit, votre modèle raconte approximativement 84% de l'"histoire" du cambriolage résidentiel.
- Evaluez chaque variable explicative du modèle : coefficient, probabilité ou probabilité robuste et facteur d'inflation de la variance (VIF). Le coefficient pour chaque variable explicative reflète à la fois la force et le type de la relation que la variable explicative présente avec la variable dépendante. Lorsque le signe associé au coefficient est négatif, la relation est négative (par exemple, plus le noyau urbain est éloigné, plus le nombre de cambriolages résidentiels est réduit). Lorsque le signe est positif, la relation est positive (par exemple, plus la population est importante, plus le nombre de cambriolages résidentiels est élevé). Les coefficients sont indiqués avec les mêmes unités que leurs variables explicatives associées (un coefficient de 0,005 associé à une variable représentant des décomptes de population peut être interprété en tant que 0,005 personnes). Le coefficient reflète la variation prévue de la variable dépendante pour toute variation d'une unité dans la variable explicative associée, toutes les autres variables restant constantes (par exemple, une augmentation de 0,005 du cambriolage résidentiel est prévue pour chaque personne supplémentaire dans l'îlot de recensement, toutes les autres variables explicatives restant constantes). Le test T permet d'évaluer si une variable explicative est statistiquement significative ou non. L'hypothèse nulle est que le coefficient est en réalité égal à zéro (et par conséquent n'aide PAS le modèle). Lorsque la probabilité ou la probabilité robuste (valeurs de p) est très petite, la probabilité que le coefficient soit en réalité nul est également réduite. Si le test de Koenker (voir ci-dessous) est statistiquement significatif, utilisez les probabilités robustes pour évaluer la signification statistique de la variable explicative. Les probabilités statistiquement significatives portent un astérisque (*). Une variable explicative associée à un coefficient statistiquement significatif est importante pour le modèle de régression si la théorie/le bon sens appuient une relation valide avec la variable dépendante, si la relation modélisée est essentiellement linéaire et si la variable n'est pas redondante avec une autre variable explicative du modèle. La valeur VIF mesure la redondance entre les variables explicatives. En tant que règle empirique, les variables explicatives associées aux valeurs VIF supérieures à environ 7,5 doivent être supprimés (une par une) du modèle de régression. Par exemple, si vous disposez d'une variable de population (nombre de personnes) et d'une variable d'emploi (nombre de personnes employées) dans votre modèle de régression, elles seront vraisemblablement associées à des valeurs VIF importantes, indiquant que ces deux variables racontent la même "histoire" ; l'une d'entre elles doit être supprimée de votre modèle.
- Evaluez la signification du modèle. Les deux valeurs Statistique F de jointure et Statistique Wald de jointure sont des mesures de la signification statistique globale du modèle. La Statistique F de jointure est digne de confiance uniquement lorsque la statistique Koenker (BP, voir ci-dessous) n'est pas statistiquement significative. Si la statistique Koenker (BP) est significative, vous devez consulter la Statistique Wald de jointure pour déterminer la signification globale du modèle. L'hypothèse nulle pour ces deux tests est que les variables explicatives dans le modèle ne sont PAS efficaces. Pour un niveau de confiance de 95 pour cent, une valeur de p (probabilité) inférieure à 0,05 indique un modèle statistiquement significatif.
- Evaluez la stationnarité. La Statistique Koenker (BP) (Statistique Breusch-Pagan avec transformation de Student de Koenker) est un test permettant de déterminer si les variables explicatives dans le modèle ont une relation cohérente avec la variable dépendante à la fois dans l'espace géographique et dans l'espace de données. Lorsque le modèle est cohérent dans l'espace géographique, les processus spatiaux représentés par les variables explicatives se comportent de la même manière partout dans la zone d'étude (les processus sont stationnaires). Lorsque le modèle est cohérent dans l'espace de données, la variation dans la relation entre les valeurs de prédiction et chaque variable explicative ne change pas avec les variations dans les grandeurs variables explicatives (absence d'hétéroscédasticité dans le modèle). Supposons que vous souhaitez prédire les infractions et que l'une de vos variables explicatives est le revenu. Le modèle aurait une hétéroscédasticité problématique si les prédictions étaient plus précises pour les emplacements avec des revenus médians réduits que pour les emplacements avec des revenus médians élevés. L'hypothèse nulle pour ce test est que le modèle est stationnaire. Pour un niveau de confiance de 95 pour cent, une valeur de p (probabilité) inférieure à 0,05 indique une hétéroscédasticité et/ou absence de stationnarité statistiquement significative. Lorsque les résultats de ce test sont statistiquement significatifs, consultez les erreurs standard et les probabilités des coefficients robustes pour évaluer l'efficacité de chaque variable explicative. Les modèles de régression avec absence de stationnarité statistiquement significative sont souvent de bons candidats pour l'analyse Régression pondérée géographiquement.
- Evaluez le biais du modèle. La statistique Jarque-Bera indique si les valeurs résiduelles (les valeurs des variables dépendantes connues/observées moins les valeurs prévues/estimées) sont distribuées normalement. L'hypothèse nulle pour ce test est que les valeurs résiduelles sont distribuées normalement, donc si vous devez construire un histogramme à partir de ces valeurs résiduelles, il ressemblerait à une courbe en cloche classique, ou distribution gaussienne. Lorsque la valeur de p (probabilité) pour ce test est faible (inférieure à 0,05 pour un niveau de confiance de 95 %, par exemple), les valeurs résiduelles ne sont pas distribuées normalement, ce qui indique que votre modèle est biaisé. Si une auto-corrélation spatiale statistiquement significative de vos valeurs résiduelles est également présente (voir ci-dessous), la distorsion peut être due à une mauvaise spécification du modèle (il manque une variable essentielle dans le modèle). Les résultats d'un modèle de moindres carrés ordinaires mal spécifié ne sont pas dignes de confiance. Un test de Jarque-Bera statistiquement significatif peut également se produire si vous tentez de modéliser des relations non linéaires, si vos données comprennent des points aberrants influents ou dans le cas d'une hétéroscédasticité importante (voir ci-dessus).
- Evaluez l'auto-corrélation spatiale des valeurs résiduelles. Exécutez toujours l'outil Spatial Autocorrelation (Moran's I) sur les valeurs résiduelles de régression pour vous assurer qu'elles sont spatialement aléatoires. L'agrégation statistiquement significative de valeurs résiduelles hautes et/ou basses (sur-estimations et sous-estimations du modèle) indique qu'une variable essentielle manque dans le modèle (mauvaise spécification). Les résultats des moindres carrés ordinaires ne sont pas dignes de confiance lorsque le modèle est mal spécifié.
- Enfin, consultez la section intitulée Corruption des modèles de régression dans la rubrique Principes de base de l'analyse de régression pour vérifier si votre modèle de régression des moindres carrés ordinaires est correctement spécifié. Remarquez également la présence d'une section intitulée Notes sur l'interprétation à la fin du rapport statistique des moindres carrés ordinaires destinée à vous rappeler l'objectif de chaque test statistique.
(C) Examinez la Classe d'entités en sortie, observez ses valeurs résiduelles. Les sous-estimations et surestimations pour un modèle de régression correctement spécifié sont distribuées de manière aléatoire. Le regroupement des sous-estimations et/ou des surestimations est une preuve qu'il manque au moins une variable explicative essentielle. Examinez les structures dans vos valeurs résiduelles du modèle pour voir si elles fournissent des indices sur les variables manquantes. Dans certains cas, l'exécution de l'outil Hot Spot Analysis sur les valeurs résiduelles de la régression peut vous aider à voir les structures plus générales dans les surestimations et sous-estimations.
(D) Affichez les tables des diagnostics et des coefficients. La création des tables des diagnostics et des coefficients est facultative. Pendant le processus de recherche d'un modèle efficace, vous pouvez choisir de ne pas créer ces tables. Le processus de création de modèle est itératif et vous allez vraisemblablement essayer un grand nombre de modèles différents (variables explicatives différentes), avant de vous décider pour quelques modèles adaptés. Vous pouvez utiliser le Critère de l'information d'Akaike corrigé (AICc) sur le rapport pour comparer différents modèles. Le modèle avec la plus petite valeur AICc est le meilleur (autrement dit, en prenant en considération la complexité du modèle, le modèle avec la plus petite valeur AICc s'ajuste mieux aux données observées). Il est conseillé de toujours créer les tables des diagnostics et des coefficients pour vos modèles de moindres carrés ordinaires finaux afin de capturer les éléments les plus importants du rapport de moindres carrés ordinaires, y compris la liste des variables explicatives utilisées dans le modèle avec leurs coefficients, leurs erreurs standard et leurs probabilités, ainsi que des résultats pour chaque test diagnostic. La table des diagnostics comprend une description de chaque test avec certains conseils pour l'interprétation des résultats de test.
Ressources supplémentaires
Il existe plusieurs ressources adaptées pour vous aider à en savoir plus sur la régression des moindres carrés ordinaires. Commencez par lire la documentation Principes de base de l'analyse de régression et/ou par regarder le webinaire gratuit de une heure Campus virtuel ESRI Principes de base de l'analyse de régression. Ensuite, exercez-vous avec un didacticiel d'analyse de régression.