Interprétation des résultats de la régression pondérée géographiquement

La sortie générée par l'outil Régression pondérée géographiquement comprend les éléments suivants :

  1. classe d'entités en sortie
  2. surfaces raster de coefficient facultatives,
  3. rapport de fenêtre de messages des résultats généraux du modèle,
  4. table supplémentaire répertoriant les variables de modèle et les résultats de diagnostic,
  5. classe d'entités de prévision en sortie.

Chacune des sorties précitées est présentée et décrite ci-dessous en tant que série d'étapes pour l'exécution de l'outil Régression pondérée géographiquement et l'interprétation des résultats correspondants. Vous commencez en général votre analyse de régression par l'outil Moindres carrés ordinaires. Pour plus d'informations, reportez-vous aux rubriques Principes de base de l'analyse de régression et Interprétation des résultats de régression des moindres carrés ordinaires pour plus d'informations. Une approche courante de l'analyse de régression consiste à identifier le meilleur modèle des moindres carrés ordinaires possible avant de passer à la régression pondérée géographiquement. Cette approche fournit le contexte pour les étapes ci-dessous.

(A) Ouvrez la Fenêtre de résultats, si nécessaire. Dès lors que vous avez identifié un ou plusieurs candidats de modèles de régression à l'aide de l'outil de régression Moindres carrés ordinaires, exécutez ces modèles à l'aide de l'outil Régression pondérée géographiquement. Excluez de votre modèle de régression pondérée géographiquement toute variable binaire régionale (fictive), car elles risquent de créer des problèmes liés à la multicolinéarité locale et sont inutiles avec cette régression. Vous devez fournir une Classe d'entités en entrée avec la Variable dépendante que vous souhaitez modéliser/expliquer/prévoir et toutes les Variables explicatives du modèle. Vous devez également fournir un nom de chemin pour la Classe d'entités en sortie, un Type du noyau (Constant ou Adaptatif) et une Méthode de largeur de bande (AIC, CV ou valeur fournie par l'utilisateur). Si, pour le paramètre Méthode de largeur de bande, vous sélectionnez Paramètre de bande passante, vous devez fournir une Distance spécifique (pour le type du noyau FIXED) ou un Nombre de voisins spécifique (pour le type du noyau ADAPTATIVE). Vous pouvez également fournir des valeurs pour les paramètres facultatifs décrits dans la documentation de l'outil Régression pondérée géographiquement. Le paramètre facultatif Espace de travail raster du coefficient est particulièrement intéressant. Lorsque vous fournissez un nom de chemin d'accès au dossier pour ce paramètre, l'outil Régression pondérée géographiquement crée des surfaces raster de coefficient (décrites ci-dessous) pour l'intersection du modèle et chaque variable explicative.

Outil Régression pondérée géographiquement
Boîte de dialogue de l'outil Régression pondérée géographiquement

(B) Examinez le rapport statistique récapitulatif affiché dans la fenêtre Résultats. En cliquant avec le bouton droit de la souris sur l'entrée Messages dans la fenêtre Résultats et en sélectionnant Affichage, vous affichez le rapport récapitulatif de l'outil Régression pondérée géographiquement dans une boîte de dialogue Message. Si vous exécutez cet outil au premier plan, le rapport récapitulatif est également affiché dans la boîte de dialogue de progression. Chacun des diagnostics indiqués est décrit ci-dessous.

  1. Bande passante ou Voisins : Il s'agit de la bande passante ou du nombre de voisins utilisés pour chaque estimation locale, peut-être le paramètre le plus important pour la Régression pondérée géographiquement. Ce paramètre contrôle le degré du lissage dans le modèle. En général, vous permettez au programme de choisir une bande passante ou une valeur de voisins automatiquement en sélectionnant AICc (critère d'information d'Akaike corrigé) ou CV (validation croisée) pour le paramètre Méthode de largeur de bande. Ces deux options tentent d'identifier une distance constante optimale ou un nombre adaptatif optimal de voisins. Puisque le critère pour "optimal" est différent pour AICc et pour CV, il est courant d'obtenir une valeur optimale différente. Vous pouvez également fournir une distance fixe exacte ou un nombre particulier de voisins en sélectionnant BANDWIDTH PARAMETER pour la Méthode de largeur de bande.

    Les unités de bande passante dépendent du Type du noyau spécifié. Si vous sélectionnez FIXED, la valeur de largeur de bande reflète une distance dans les mêmes unités que la Classe d'entités en entrée (par exemple, si la classe d'entités en entrée est projetée à l'aide de coordonnées UTM, la distance indiquée est en mètres). Si vous sélectionnez ADAPTIVE, la distance de bande passante évolue en fonction de la densité spatiale des entités dans la Classe d'entités en entrée. La bande passante devient une fonction du nombre de voisins les plus proches, pour que chaque estimation locale soit basée sur le même nombre d'entités. Au lieu d'une distance spécifique, le nombre de voisins utilisés pour l'analyse est indiqué.

  2. ResidualSquares : C'est la somme des valeurs résiduelles au carré dans le modèle (la valeur résiduelle correspond à la différence entre une valeur y observée et sa valeur estimée renvoyée par le modèle de Régression pondérée géographiquement). Plus cette mesure est réduite, plus l'ajustement du modèle de Régression pondérée géographiquement aux données observées est proche. Cette valeur est utilisée dans plusieurs autres mesures diagnostiques.
  3. EffectiveNumber : Cette valeur reflète un compromis entre la variance des valeurs ajustées et le biais dans les évaluations de coefficient, elle est liée au choix de bande passante. Lorsque la bande passante approche de l'infini, les pondérations géographiques pour chaque observation approchent de 1 et les évaluations de coefficient sont très proches de celles d'un modèle de Moindres carrés ordinaires global. Pour les bandes passantes très importantes, le nombre effectif de coefficients se rapproche du nombre réel ; les évaluations de coefficient locales présentent une variance réduite mais un biais plutôt important. Inversement, lorsque la bande passante approche de zéro, les pondérations géographiques de chaque observation approchent de zéro à l'exception du point de régression lui-même. Pour les bandes passantes extrêmement réduites, le nombre effectif de coefficients correspond au nombre d'observations et les évaluations de coefficient locales présentent une variance importante mais un biais réduit. Le nombre effectif permet de calculer plusieurs mesures diagnostiques.
  4. Sigma : Cette valeur est la racine carrée de la somme de carrés résiduelle normalisée, où la somme résiduelle de carrés est divisée par les degrés de liberté effectifs de la valeur résiduelle. Il s'agit de l'écart type estimé pour les valeurs résiduelles. Pour cette statistique, les valeurs réduites sont préférables. La valeur Sigma est utilisée pour les calculs AICc.
  5. AICc : Il s'agit d'une mesure des performances du modèle, utile pour la comparaison de différents modèles de régression. En considérant la complexité du modèle, un modèle de valeur AICc inférieure fournit un meilleur ajustement aux données observées. La valeur AICc n'est pas une mesure absolue de la qualité d'ajustement mais elle est utile pour la comparaison de modèles avec des variables explicatives différentes, tant qu'ils s'appliquent à la même variable dépendante. Si les valeurs AICc pour deux modèles diffèrent de plus de 3, le modèle avec la valeur AICc inférieure est considéré meilleur. La comparaison des valeurs AICc de la Régression pondérée géographiquement et des Moindres carrés ordinaires est une manière d'évaluer les avantages du passage d'un modèle global (Moindres carrés ordinaires) à un modèle de régression local (Régression pondérée géographiquement).
  6. R2 : R au carré est une mesure de la qualité d'ajustement. Sa valeur varie de 0,0 à 1,0, les valeurs supérieures étant préférables. Elle peut être interprétée en tant que proportion de variance de la variable dépendante correspondant au modèle de régression. Le dénominateur pour le calcul de R2 est la somme des valeurs de variables dépendantes au carré. L'ajout d'une variable explicative supplémentaire au modèle ne modifie pas le dénominateur mais le numérateur ; ce qui donne une impression d'amélioration dans l'ajustement du modèle qui peut ne pas être réelle. Reportez-vous au R2 ajusté ci-dessous.
  7. R2Adjusted : En raison du problème décrit ci-dessus pour la valeur R2, les calculs pour la valeur R au carré ajustée normalisent le numérateur et le dénominateur par leurs degrés de liberté. Cela a pour effet de compenser le nombre de variables d'un modèle ; par conséquent, la valeur R2 ajustée est presque toujours plus petite que la valeur R2. Toutefois, pour effectuer cet ajustement, vous perdez l'interprétation de la valeur en tant que proportion de la variance expliquée. Dans la Régression pondérée géographiquement, le nombre effectif de degrés de liberté est une fonction de la bande passante, donc l'ajustement peut être très marqué par rapport à un modèle global comme les Moindres carrés ordinaires. Pour cette raison, la valeur AICc est préférable en tant que moyen de comparaison des modèles.
Evaluation des diagnostics globaux de la Régression pondérée géographiquement.
Sortie d'exécution de l'outil Régression pondérée géographiquement

Les diagnostics de fenêtre de messages sont écrits dans une table supplémentaire (_supp) avec des informations sommaires concernant les variables et paramètres de modèle.

Table en sortie de la Régression pondérée géographiquement
Table _supp en sortie de la Régression pondérée géographiquement

(C) Examinez les valeurs résiduelles de la classe d'entités en sortie.

Les sous-estimations et sur-estimations pour un modèle de régression bien spécifié sont distribuées de manière aléatoire. Le regroupement des sous-estimations et/ou des sur-estimations est une preuve qu'il manque au moins une variable explicative essentielle. Examinez les structures dans vos valeurs résiduelles des modèles Moindres carrés ordinaires et Régression pondérée géographiquement pour voir si elles fournissent des indices sur les variables manquantes. Exécutez l'outil Spatial Autocorrelation (Moran's I) sur les valeurs résiduelles de régression pour vous assurer qu'elles sont spatialement aléatoires. L'agrégation statistiquement significative de valeurs résiduelles hautes et/ou basses (sous-estimations et sur-estimations du modèle) indique que le modèle Régression pondérée géographiquement est mal spécifié.

Classe d'entités en sortie de la Régression pondérée géographiquement
Classe d'entités en sortie de la Régression pondérée géographiquement avec les valeurs résiduelles représentées

En plus des valeurs résiduelles de régression, la Classe d'entités en sortie comprend des champs pour les valeurs y observées et prévues, le numéro de condition (cond), la valeur R2 locale, les coefficients des variables explicatives et les erreurs standard :

  1. Condition Number : Ce diagnostic évalue la multicolinéarité locale. En présence d'une forte multicolinéarité locale, les résultats deviennent instables. Les résultats associés à des nombres de conditions supérieurs à 30 peuvent être peu fiables.
  2. R2 local : Ces valeurs sont comprises entre 0,0 et 1,0 et indiquent la qualité d'ajustement du modèle de régression locale aux valeurs y observées. Des valeurs très faibles indiquent une mauvaise qualité du modèle. Le mappage des valeurs R2 locales pour voir où la Régression pondérée géographiquement donne de bons ou mauvais résultats peut fournir des indices concernant les variables importantes, éventuellement absentes du modèle de régression.
  3. Prévues : Ce sont les valeurs y estimées (ou ajustées) calculées par la Régression pondérée géographiquement.
  4. Résiduels : Pour obtenir les valeurs résiduelles, les valeurs y ajustées sont soustraites des valeurs y observées. Les valeurs résiduelles standardisées ont une moyenne de zéro et un écart type de 1. Une carte avec un rendu à tonalités froides-chaudes de valeurs résiduelles standardisées est ajoutée automatiquement à la table des matières lorsque la Régression pondérée géographiquement est exécutée dans ArcMap.
  5. Erreur classique de coefficient : Ces valeurs mesurent la fiabilité de chaque évaluation de coefficient. La confiance dans ces évaluations est supérieure lorsque les erreurs standard sont petites par rapport aux valeurs réelles des coefficients. Les erreurs standard importantes peuvent indiquer des problèmes de multicolinéarité locale.
Table de classe d'entités en sortie
Résultats de classe d'entités en sortie

(D) Examinez les surfaces raster de coefficient créées par la Régression pondérée géographiquement (et/ou avec les données de polygone, un rendu par couleurs graduées des coefficients au niveau de l'entité) pour mieux comprendre la variation régionale des variables explicatives du modèle. Lorsque vous utilisez la Régression pondérée géographiquement pour modéliser une variable (variable dépendante) vous vous intéressez généralement à la prévision de valeurs ou au fonctionnement des facteurs qui contribuent aux résultats de variable dépendante. Toutefois, vous vous intéressez également à l'examen de la cohérence (la stabilité) spatiale des relations entre la variable dépendante et chaque variable explicative sur l'ensemble de la zone d'étude. L'examen de la distribution du coefficient en tant que surface indique la proportion et l'emplacement de la variation. Vous pouvez utiliser votre compréhension de cette variation pour modifier les règles :

Surfaces raster de coefficient
L'hétérogénéité spatiale est révélée dans les surfaces raster de coefficient en sortie.

(E) Cartographiez les prédictions de la Régression pondérée géographiquement. La Régression pondérée géographiquement peut être utilisée pour la prédiction lorsqu'elle s'applique aux données échantillonnées. Spécifiez une classe d'entités contenant toutes les variables explicatives pour les emplacements où la variable dépendante est inconnue. La Régression pondérée géographiquement calibre l'équation de régression à l'aide des valeurs de variable dépendante connues de la Classe d'entités en entrée, puis crée une Classe d'entités en sortie avec des évaluations de variable dépendante.


7/10/2012