Principes de base de l'analyse de régression

La boîte à outils Statistiques spatiales fournit des outils efficaces pour quantifier les structures spatiales. A l'aide de l'outil Hot Spot Analysis par exemple, vous pouvez poser des questions telles que les suivantes :

Analyse de semis de points des appels d'urgence
Analyse des données d'appel d'urgence indiquant des points chauds d'appel (rouge), des points froids d'appel (bleu) et les emplacements des unités de pompiers/police chargés de l'intervention (croix vertes).

Toutes les questions ci-dessus posent la question "où". La prochaine question logique pour les types d'analyse ci-dessus implique "pourquoi".

Les outils du jeu d'outils Modélisation de relations spatiales vous aident à répondre à ce deuxième jeu de questions sur les causes. Ces outils comprennent la régression Moindres carrés ordinaires et la Régression pondérée géographiquement.

Relations spatiales

L'analyse de régression vous permet de modéliser, d'examiner et d'explorer des relations spatiales et peut aider à expliquer les facteurs à l'origine des structures spatiales observées. Vous pouvez souhaiter comprendre pourquoi les gens meurent jeunes de manière récurrente dans certaines régions du pays ou quels facteurs contribuent à des taux de diabète supérieurs à la normale. En modélisant des relations spatiales, toutefois, les analyses de régression peuvent également être utilisées pour la prédiction. La modélisation des facteurs qui contribuent aux taux d'études supérieures, par exemple, vous permet de faire des prédictions concernant les futures compétences et ressources de main-d'œuvre. Vous pouvez également utiliser la régression pour prévoir les précipitations ou la qualité de l'air lorsque l'interpolation est insuffisante en raison d'une pénurie de stations de surveillance (par exemple, les indicateurs de précipitation font souvent défaut le long des crêtes de montagne et dans les vallées).

La méthode des moindres carrés ordinaires est la meilleure technique de régression connue. Il s'agit également du point de départ proprement dit pour toutes les analyses de régression spatiales. Elle fournit un modèle global de la variable ou du processus que vous essayez de comprendre ou de prévoir (mort précoce/précipitations) ; elle crée une seule équation de régression pour représenter ce processus. La régression pondérée géographiquement est une technique de régression spatiale parmi d'autres, utilisée de manière grandissante dans la géographie et d'autres disciplines. La régression pondérée géographiquement fournit un modèle local de la variable ou du processus que vous essayez de comprendre/prévoir en ajustant une équation de régression à chaque entité du jeu de données. En cas d'utilisation correcte, ces méthodes fournissent des statistiques puissantes et fiables pour l'examen et l'estimation de relations linéaires.

Les relations linéaires sont positives ou négatives. Si vous déterminez que le nombre d'événements de sauvetage augmente avec les températures journalières, la relation est dite positive ; il existe dans ce cas une corrélation positive. Une autre méthode pour exprimer cette relation positive consiste à dire que les événements de sauvetage diminuent avec les températures journalières. Inversement, si vous déterminez que le nombre d'infractions diminue lorsque le nombre d'agents de police en patrouille dans une zone augmente, la relation est dite négative. Vous pouvez également exprimer cette relation négative en déclarant que le nombre d'infractions augmente lorsque le nombre d'agents en patrouille diminue. Le graphique ci-dessous représente à la fois des relations positives et négatives, ainsi que le cas où il n'existe aucune relation entre deux variables :

Relation positive, relation négative, aucune relation
Nuages de points : une relation positive, une relation négative et un cas où deux variables sont non reliées

Les analyses de corrélation et leurs graphiques associés représentés ci-dessus testent l'intensité de la relation entre deux variables. Les analyses de régression en revanche effectuent une affirmation plus forte : elles essaient de montrer la mesure dans laquelle une ou plusieurs variables influencent potentiellement un changement positif ou négatif dans une autre variable.

Applications d'analyse de régression

Les analyses de régression peuvent être utilisées pour une large gamme d'applications :

Il existe trois raisons principales pour utiliser l'analyse de régression :

Termes et concepts de l'analyse de régression

Il est impossible de discuter de l'analyse de régression sans se familiariser au préalable avec certains termes et principes de base spécifiques aux statistiques de régression :

Equation de régression : Il s'agit de la formule mathématique appliquée aux variables explicatives pour prévoir au mieux la variable dépendante que vous essayez de modéliser. Malheureusement pour les spécialistes des géosciences qui considèrent x et y comme coordonnées, dans les équations de régression la notation de la variable dépendante est toujours y et celle des variables indépendantes ou explicatives est toujours X. Chaque variable indépendante est associée à un coefficient de régression qui décrit la force et le signe de la relation de cette variable par rapport à la variable dépendante. Une équation de régression peut ressembler aux éléments suivants (y est la variable dépendante, les X sont les variables explicatives, et les β sont des coefficients de régression ; chacun de ces composants de l'équation de régression est expliqué dans la suite de cette rubrique) :

Equation de régression des moindres carrés ordinaires
Eléments d'une équation de régression des moindres carrés ordinaires

Valeurs de P : La plupart des méthodes de régression effectuent un test statistique pour calculer une probabilité, appelée valeur de p, pour les coefficients associés à chaque variable indépendante. L'hypothèse nulle pour ce test statistique indique qu'un coefficient n'est pas significativement différent de zéro (en d'autres termes, en réalité le coefficient est nul et la variable explicative associée n'aide pas votre modèle). Les petites valeurs de p reflètent des probabilités faibles et suggèrent que le coefficient est, en effet, important pour votre modèle avec une valeur significativement différente de zéro (en d'autres termes, une petite valeur de p indique que le coefficient n'est pas nul). Vous pouvez considérer qu'un coefficient avec une valeur de p de 0,01, par exemple, est statistiquement significatif avec un niveau de confiance de 99 pour cent ; la variable associée est un prédicteur efficace. Les variables avec des coefficients proches de zéro n'aident pas à prévoir ni à modéliser la variable dépendante ; elles sont presque toujours supprimées de l'équation de régression, à moins qu'il existe des raisons théoriques importantes de les garder.

R2/R carré : Les valeurs R carré multiple et R carré ajusté sont deux statistiques dérivées de l'équation de régression pour quantifier les performances du modèle. La valeur de R-carré est comprise entre 0 et 100 %. Si votre modèle correspond parfaitement aux valeurs de variable dépendante observées, R carré est égal à 1,0 (et vous avez sans doute fait une erreur ; peut-être avez-vous utilisé une forme de y pour prévoir y). Plus probablement, vous observez des valeurs de R carré de l'ordre de 0,49, par exemple, que vous pouvez interpréter en disant "Ce modèle explique 49 pour cent de la variation dans la variable dépendante". Pour comprendre ce que la valeur R carré signifie, créez un diagramme à barres qui affiche à la fois les valeurs y estimées et observées, triées selon les valeurs estimées. Remarquez l'importance de la superposition. Ce graphique fournit une représentation visuelle de la qualité avec laquelle les valeurs de prédiction du modèle expliquent la variation dans les valeurs de variable dépendante observées. Afficher une illustration. La valeur R carré ajustée est toujours légèrement inférieure à la valeur R carré multiple car elle reflète la complexité du modèle (nombre de variables) dans son rapport avec les données. Par conséquent, la valeur R carré ajustée est une mesure plus précise des performances du modèle.

Valeurs résiduelles : Il s'agit de la portion inexpliquée de la variable dépendante, représentée dans l'équation de régression en tant que terme d'erreur aléatoire ε. Afficher une illustration. Les valeurs connues pour la variable dépendante permettent de créer et de calibrer le modèle de régression. A l'aide des valeurs connues pour la variable dépendante (y) et des valeurs connues pour toutes les variables explicatives (les X), l'outil de régression construit une équation qui prévoit ces valeurs de y connues le mieux que possible. Toutefois, les valeurs de prédiction correspondent rarement aux valeurs observées de manière exacte. La différence entre les valeurs de y observées et les valeurs de y prévues est désignée par les valeurs résiduelles. La grandeur des valeurs résiduelles d'une équation de régression est une mesure d'ajustement du modèle. Des valeurs résiduelles élevées indiquent un faible ajustement au modèle.

La création d'un modèle de régression est un procédé itératif qui implique la découverte de variables indépendantes efficaces pour expliquer la variable dépendante que vous essayez de modéliser ou de comprendre, en exécutant l'outil de régression pour déterminer quelles variables sont des prédicteurs efficaces, puis en supprimant et/ou ajoutant des variables à plusieurs reprises jusqu'à trouver le meilleur modèle de régression possible. Bien que la création du modèle soit souvent un processus d'exploration, il ne doit pas s'agir d'une "expédition de pêche". Vous devez identifier les variables explicatives candidates en consultant la théorie, les experts de terrain et le bon sens. Vous devez être en mesure de déclarer et de justifier la relation attendue entre chaque variable explicative candidate et la variable dépendante avant l'analyse et vous devez mettre en question les modèles dans lesquels ces relations ne correspondent pas.

RemarqueRemarque :

Si vous n'avez pas utilisé l'analyse de régression auparavant, ce serait un moment adapté pour télécharger le didacticiel d'analyse de régression et exécuter les étapes 1 à 5.

Problèmes d'analyse de régression

La régression des Moindres carrés ordinaires est une méthode simple, présente un fond théorique bien développé et dispose de plusieurs diagnostics efficaces pour faciliter l'interprétation et le dépannage. Toutefois, la méthode des moindres carrés ordinaires est efficace et fiable uniquement si vos données et votre modèle de régression vérifient toutes les conditions fondamentalement nécessaires pour cette méthode (voir la table ci-dessous). Les données spatiales violent souvent les suppositions et les besoins de la régression des moindres carrés ordinaires, il est donc important d'utiliser les outils de régression conjointement aux outils diagnostiques appropriés pouvant évaluer si la régression est une méthode appropriée pour votre analyse, étant donnée la structure des données et le modèle mis en œuvre.

Corruption des modèles de régression

Une violation sérieuse pour de nombreux modèles de régression est la spécification erronée. Un modèle mal spécifié est incomplet. Il lui manque des variables explicatives importantes, donc il ne représente pas suffisamment ce que vous essayez de modéliser ou de prévoir (la variable dépendante, y). En d'autres termes, le modèle de régression ne raconte pas toute l'histoire. La spécification erronée est évidente chaque fois que vous voyez une auto-corrélation spatiale statistiquement significative dans vos valeurs résiduelles de régression ou, autrement dit, dès lors que vous observez que les sur-estimations et les sous-estimations (valeurs résiduelles) de votre modèle ont tendance à être regroupées spatialement dans des parties différentes de la zone d'étude. La Cartographie des valeurs résiduelles de la régression ou des coefficients, associée à l'analyse de Régression pondérée géographiquement fournit souvent des indices sur les éléments manquants. L'exécution de l'outil Hot Spot Analysis sur les valeurs résiduelles de la régression peut également permettre de révéler des régimes spatiaux différents qui peuvent être modélisés dans la méthode des moindres carrés ordinaires avec des variables régionales ou résolus à l'aide de la méthode de régression pondérée géographiquement. Supposons que lorsque vous cartographiez vos valeurs résiduelles de régression, vous observez que le modèle effectue toujours une sur-estimation dans les zones de montagne et une sous-estimation dans les vallées ; vous en conclurez probablement que votre modèle manque d'une variable d'altitude. Toutefois, les variables manquantes sont parfois trop complexes à modéliser, impossibles à quantifier ou trop difficiles à mesurer. Dans ces cas, vous pouvez éventuellement passer à la méthode de régression pondérée géographiquement ou à une autre méthode de régression spatiale pour obtenir un modèle correctement spécifié.

Le tableau suivant répertorie les problèmes courants avec les modèles de régression et les outils disponibles dans ArcGIS pour aider à les résoudre :

Problèmes de régression courants, conséquences et solutions

Variables explicatives omises (spécification erronée).

Lorsque des variables explicatives essentielles manquent dans un modèle de régression, les coefficients et leurs valeurs de p associées ne sont pas dignes de confiance.

Cartographiez et examinez les valeurs résiduelles de la méthode des moindres carrés ordinaires et les coefficients de la régression pondérée géographiquement ou exécutez l'outil Hot Spot Analysis sur les valeurs résiduelles de la régression des moindres carrés ordinaires pour voir si vous obtenez des indices concernant les variables éventuellement manquantes.

Relations non linéaires. Afficher une illustration.

La méthode des moindres carrés ordinaires et la régression pondérée géographiquement sont des méthodes linéaires. Si la relation entre l'une des variables explicatives et la variable dépendante est non linéaire, le modèle résultant présente de mauvaises performances.

Créez un graphique de matrice de nuages de points pour élucider les relations entre toutes les variables du modèle. Faites attention aux relations qui impliquent la variable dépendante. La curvilinéarité peut souvent être résolue par transformation des variables. Afficher une illustration. Vous pouvez également utiliser une méthode de régression non linéaire.

Points de données aberrants. Afficher une illustration.

Les points aberrants influents peuvent écarter les relations de régression modélisées de leur meilleur ajustement réel, en influençant les coefficients de régression.

Créez une matrice de nuages de points et d'autres diagrammes (histogrammes) pour examiner les valeurs des données extrêmes. Corrigez ou supprimez les points aberrants s'ils représentent des erreurs. Lorsque les points aberrants correspondent à des valeurs correctes/valides, ils ne peuvent/doivent pas être supprimés. Exécutez la régression avec et sans points aberrants pour voir dans quelle mesure ils affectent vos résultats.

Stationnarité nulle. Vous pouvez observer qu'une variable de revenu, par exemple, présente un potentiel explicatif fort dans la région A mais est insignifiante ou même change de signe dans la région B. Afficher une illustration.

Si les relations entre vos variables dépendantes et explicatives sont incohérentes sur l'ensemble de votre zone d'étude, les erreurs standard calculées sont augmentées artificiellement.

L'outil Moindres carrés ordinaires dans ArcGIS teste automatiquement les problèmes associés à la stationnarité nulle (variation régionale) et calcule les valeurs d'erreur standard robustes. Afficher une illustration. Lorsque la probabilité associée au test de Koenker est réduite (< 0,05, par exemple), vous disposez d'une variation régionale statistiquement significative et devez consulter les probabilités robustes pour déterminer si une variable explicative est statistiquement significative ou non. Souvent, vous améliorez les résultats du modèle à l'aide de l'outil Régression pondérée géographiquement.

Multicolinéarité. Une variable explicative ou une combinaison de variables explicatives est redondante. Afficher une illustration.

La multicolinéarité mène à un type de biais surévalué et à un modèle instable/peu fiable.

L'outil Moindres carrés ordinaires dans ArcGIS vérifie automatiquement la redondance. Une valeur VIF calculée est attribuée à chaque variable explicative. Lorsque cette valeur est importante (> 7,5, par exemple), la redondance est un problème et les variables en question doivent être supprimées du modèle ou modifiées en créant une variable d'interaction ou en augmentant la taille de l'échantillon. Afficher une illustration.

Variance incohérente dans les valeurs résiduelles. Il est possible que le modèle effectue de bonnes prédictions pour les valeurs réduites de la variable dépendante mais devienne peu fiable pour les valeurs importantes. Afficher une illustration.

Lorsque le modèle présente de mauvaises prédictions pour une certaine plage de valeurs, les résultats sont biaisés.

L'outil Moindres carrés ordinaires dans ArcGIS teste automatiquement la variance incohérente des valeurs résiduelles (nommée hétéroscédasticité) et calcule des erreurs standard robustes à ce problème. Lorsque la probabilité associée au test de Koenker est réduite (< 0,05, par exemple), vous devez consulter les probabilités robustes afin de déterminer si une variable explicative est statistiquement significative ou non. Afficher une illustration.

Valeurs résiduelles spatialement auto-corrélées. Afficher une illustration.

En cas d'agrégation spatiale des sur-estimations ou sous-estimations issues du modèle, ce regroupement introduit un type de biais surévalué et rend le modèle peu fiable.

Exécutez l'outil Spatial Autocorrelation sur les valeurs résiduelles afin de garantir qu'elles ne présentent pas d'agrégation spatiale statistiquement significative. L'auto-corrélation spatiale statistiquement significative est presque toujours un symptôme de spécification erronée (une variable essentielle manque dans le modèle). Afficher une illustration.

Biais de distribution normale. Afficher une illustration.

Lorsque les valeurs résiduelles du modèle de régression ne sont pas distribuées normalement avec une moyenne de zéro, les valeurs de p associées aux coefficients sont peu fiables.

L'outil Moindres carrés ordinaires dans ArcGIS teste automatiquement si les valeurs résiduelles sont distribuées normalement. Lorsque la statistique de Jarque-Bera est significative (< 0,05, par exemple), votre modèle est probablement mal spécifié (une variable essentielle manque dans le modèle) ou certaines des relations modélisées sont non linéaires. Examinez la carte des valeurs résiduelles en sortie et éventuellement les cartes des coefficients de régression pondérée géographiquement pour voir si cet exercice révèle les variables essentielles qui manquent dans l'analyse. Affichez les graphiques de matrice de nuages de points et recherchez des relations non linéaires.

Problèmes de régression courants et solutions

Il est important de tester chacun des problèmes répertoriés ci-dessus. Les résultats peuvent être erronés à 100 % (différence d'orientation de 180 degrés) si les problèmes ci-dessus sont ignorés.

RemarqueRemarque :

Si vous n'avez pas utilisé l'analyse de régression auparavant, ce serait un moment adapté pour télécharger et pratiquer le didacticiel d'analyse de régression.

Régression spatiale

Les données spatiales exposent deux propriétés qui rendent difficile (mais non impossible) de satisfaire les suppositions et les besoins des méthodes statistiques traditionnelles (non spatiales), comme la régression des moindres carrés ordinaires :

Les vraies méthodes de régression spatiales ont été développées pour gérer robustement ces deux caractéristiques des données spatiales et même incorporer ces qualités spéciales des données spatiales pour améliorer leur capacité à modéliser des relations de données. Certaines méthodes de régression spatiales traitent efficacement la première caractéristique (auto-corrélation spatiale), d'autres traitent efficacement la seconde (stationnarité nulle). A l'heure actuelle, aucune méthode de régression spatiale n'est efficace pour les deux caractéristiques. Toutefois, pour un modèle de Régression pondérée géographiquement spécifié correctement, l'auto-corrélation spatiale n'est pas généralement un problème.

Auto-corrélation spatiale

Il semble exister une grande différence entre les manières selon lesquelles un statisticien traditionnel et un statisticien spatial considèrent l'auto-corrélation spatiale. Le statisticien traditionnel la considère comme une mauvaise chose devant être supprimée des données (par ré-échantillonnage, par exemple), car l'auto-corrélation spatiale viole des suppositions sous-jacentes de nombreuses méthodes statistiques traditionnelles (non spatiales). Pour le géographe ou analyste SIG, toutefois, l'auto-corrélation spatiale est une preuve d'activité de processus spatiaux sous-jacents importants ; il s'agit d'un composant des données à part entière. La suppression de l'espace écarte les données de leur contexte spatial ; cela revient à connaître uniquement la moitié de l'histoire. Les processus spatiaux et relations spatiales évidents dans les données constituent un intérêt principal et l'une des raisons pour lesquelles les utilisateurs de SIG s'intéressent fortement à l'analyse de données spatiales. Toutefois, pour éviter un type de biais surévalué dans votre modèle, vous devez identifier l'ensemble complet de variables explicatives qui capturent efficacement la structure spatiale inhérente à votre variable dépendante. Si vous ne pouvez pas identifier toutes ces variables, vous observerez vraisemblablement une auto-corrélation spatiale statistiquement significative dans les valeurs résiduelles du modèle. Malheureusement, vous ne pouvez pas faire confiance à vos résultats de régression avant d'avoir résolu cette situation. Utilisez l'outil Spatial Autocorrelation pour tester l'auto-corrélation spatiale statistiquement significative dans vos valeurs résiduelles de régression.

Il existe au moins trois stratégies permettant de gérer l'auto-corrélation spatiale dans les valeurs résiduelles du modèle de régression :

  1. Effectuez un ré-échantillonnage jusqu'à ce que les variables en entrée ne présentent plus d'auto-corrélation spatiale statistiquement significative. Bien que cette opération ne garantisse pas l'absence de problèmes d'auto-corrélation spatiale dans l'analyse, ils sont bien moins vraisemblables lorsque l'auto-corrélation spatiale est supprimée des variables dépendantes et explicatives. Cette approche correspond à la manière du statisticien traditionnel de gérer l'auto-corrélation spatiale et est appropriée uniquement si l'auto-corrélation spatiale est le résultat d'une redondance de données (la structure d'échantillonnage est trop fine).
  2. Isolez les composants spatiaux et non spatiaux de chaque variable en entrée à l'aide d'une méthode de régression de filtrage spatial. L'espace est supprimé de chaque variable, mais restitué dans le modèle de régression en tant que nouvelle variable afin de prendre en compte les effets spatiaux/la structure spatiale. ArcGIS ne propose actuellement aucune méthode de régression de filtrage spatial.
  3. Incorporez l'auto-corrélation spatiale dans le modèle de régression à l'aide des méthodes de régression économétriques spatiales. Les méthodes de régression économétriques spatiales seront intégrées à ArcGIS dans une version future.

Variation régionale

Les modèles globaux, comme la régression des moindres carrés ordinaires, créent des équations qui décrivent le mieux les relations de données globales dans une zone d'étude. Lorsque ces relations sont cohérentes sur l'ensemble de la zone d'étude, l'équation de la régression des moindres carrés ordinaires les modélise bien. Toutefois, lorsque ces relations se comportent différemment dans différentes parties de la zone d'étude, l'équation de régression est plutôt une moyenne du mélange de relations en présence et dans le cas où ces relations représentent deux extrêmes, la moyenne globale ne modélise pas bien ni l'un ni l'autre extrême. Lorsque vos variables explicatives présentent des relations non stationnaires (variation régionale), les modèles globaux ont tendance à s'effondrer, à moins d'utiliser des méthodes robustes pour calculer les résultats de régression. Idéalement, vous êtes en mesure d'identifier un ensemble complet de variables explicatives pour capturer la variation régionale inhérente à votre variable dépendante. Si toutefois vous ne pouvez pas identifier toutes ces variables spatiales, vous remarquerez encore une auto-corrélation spatiale statistiquement significative dans vos valeurs résiduelles du modèle et/ou des valeurs de R carré inférieures à vos attentes. Malheureusement, vous ne pouvez pas faire confiance à vos résultats de régression avant d'avoir résolu cette situation.

Il existe au moins quatre manières de gérer la variation régionale dans les modèles de régression des moindres carrés ordinaires :

  1. Incluez une variable dans le modèle qui explique la variation régionale. Si vous observez que votre modèle présente toujours une sur-estimation dans le nord et une sous-estimation dans le sud, par exemple, ajoutez une variable régionale définie sur 1 pour les entités du nord et sur 0 pour les entités du sud.
  2. Utilisez des méthodes qui intègrent la variation régionale dans le modèle de régression, telle que la régression pondérée géographiquement.
  3. Consultez les probabilités et erreurs standard de régression robustes pour déterminer si les coefficients des variables sont statistiquement significatifs. Reportez-vous à la rubrique Interprétation des résultats de régression des moindres carrés ordinaires. La régression pondérée géographiquement reste recommandée.
  4. Redéfinissez/réduisez la taille de la zone d'étude afin que les processus qu'elle comprend soient tous stationnaires (ne présentent plus de variation régionale).

Pour plus d'informations sur l'utilisation des outils de régression, reportez-vous aux rubriques suivantes :

Pour en savoir plus sur la régression des moindres carrés ordinaires

Pour en savoir plus sur la régression pondérée géographiquement

Interprétation des résultats de régression des moindres carrés ordinaires

Interprétation des résultats de régression pondérée géographiquement

Rubriques connexes


7/10/2012