Analyse statistique

Les informations relatives aux attributs d'entités et à leur localisation sont inhérentes aux données SIG. Ces informations servent à créer des cartes qui peuvent être analysées visuellement. L'analyse statistique vous aide à extraire de vos données SIG des informations complémentaires qui peuvent ne pas être évidentes en regardant une carte. Il s'agit par exemple de la façon dont les valeurs attributaires sont distribuées, s'il y a des tendances spatiales dans les données ou si les entités forment des modèles spatiaux. A la différence des fonctions de requête (comme identifier ou sélection, qui fournissent des informations au sujet d'entités individuelles), l'analyse statistique révèle les caractéristiques d'un ensemble d'entités dans son intégralité.

Certaines des techniques d'analyse statistique décrites dans ce document sont particulièrement adaptées aux applications interactives, telles qu'ArcMap, qui vous permettent de sélectionner et d'afficher des données dans un environnement ad hoc et fluide. Certaines des méthodes décrites ici se trouvent dans les menus et les barres d'outils d'ArcMap et n'ont pas d'équivalents parmi les outils de géotraitement. D'autres méthodes, telles que les outils de statistiques spatiales, sont implémentées seulement en tant qu'outils de géotraitement.

Utilisations de l'analyse statistique

L'analyse statistique est souvent utilisée pour explorer les données : par exemple, pour examiner la distribution des valeurs d'un attribut particulier ou pour repérer des points aberrants (valeurs très élevées ou très basses). Il est utile de disposer de ces informations lors de la définition de classes et de plages sur une carte, de la reclassification de données ou de la recherche d'erreurs dans les données.

Dans l'exemple ci-après, les statistiques ont été calculées pour la répartition des personnes âgées par secteur de recensement dans cette région (pourcentage de personne de 65 ans et plus dans chaque secteur), avec la moyenne et l'écart type, ainsi qu'un histogramme illustrant la répartition des valeurs. La plupart des secteurs ont un pourcentage d'aînés inférieur à la moyenne, mais certains ont un pourcentage très élevé.

Résumé statistique et histogramme complètent la symbologie

L'analyse statistique sert aussi à la récapitulation des données. Elle se fait souvent pour les catégories, par exemple pour calculer la surface totale de chaque catégorie d'utilisation du sol. Vous pouvez aussi créer des résumés spatiaux, par exemple calculer l'altitude moyenne de chaque bassin versant. Les données récapitulatives permettent de mieux appréhender les conditions d'une zone d'étude.

Dans l'exemple ci-après, les résumés statistiques ont été calculés pour chaque classe d'utilisation du sol, pour montrer le nombre de parcelles de cette classe, la taille de la parcelle la plus petite et la plus grande, la taille moyenne des parcelles et la surface totale de la classe.

La taille d'entité de parcelle pouvant varier avec la classe d'utilisation du sol, les statistiques peuvent montrer le modèle.
Les résumés statistiques peuvent révéler des modèles dans les données.

L'analyse statistique permet également d'identifier et de confirmer des modèles spatiaux, comme le centre d'un groupe d'entités, la tendance directionnelle, ou si les entités forment des agrégats. Alors que les modèles peuvent être apparents sur une carte, il peut s'avérer difficile de tenter de tirer des conclusions d'une carte. La façon dont vous classez et symbolisez les données peut brouiller ou accentuer les modèles. Les fonctions statistiques analysent les données sous-jacentes et vous donnent une mesure servant à confirmer l'existence et la force du modèle.

Ci-dessous, vous trouverez un exemple d'analyses qui montrent le centre moyen d'un ensemble de cambriolages, et l'ellipse d'écart type pour un ensemble de points d'observation d'élans (montrant la tendance directionnelle).

Les statistiques spatiales peuvent faire apparaître des modèles géographiques ou des tendances.

Ci-dessous, vous trouverez un exemple d'analyse qui montre des agrégats de secteurs de recensement comptant un grand nombre (orange) ou peu (bleu) de personnes âgées, qui sont importantes sur le plan statistique.

Les statistiques spatiales peuvent faire apparaître des modèles géographiques ou des tendances.

Types d'analyse statistique

Les fonctions d'analyse statistique d'ArcGIS Desktop sont soit non spatiales (tabulaires) soit spatiales (contenant des localisations).

Les statistiques non spatiales servent à l'analyse des valeurs attributaires associées aux entités. L'accès aux valeurs se fait directement à partir de la table attributaire d'entités d'une couche. Parmi les exemples de statistiques non spatiales, citons la moyenne et l'écart type.

Dans cet exemple, l'outil Résumés statistiques a été utilisé pour calculer le nombre de parcelles vacantes pour un ensemble de secteurs de recensement, y compris le total, la moyenne et l'écart type.

Résumés statistiques

Les diagrammes et les graphiques, tels qu'un histogramme ou un tracé QQ, constituent une autre façon d'analyser des données non spatiales. Dans tous les cas, seules les valeurs sont analysées. Les localisations des entités avec lesquelles les valeurs sont associées (et les relations spatiales entre les entités) ne sont pas prises en compte.

Dans cet exemple, l'histogramme montre la répartition de parcelles vacantes (le nombre de parcelles vacantes le long de l'axe des x et le nombre de secteurs dans chaque plage le long de l'axe des y).

Les histogrammes montrent la distribution des valeurs des données.

Un tracé QQ permet d'évaluer la similarité de la distribution d'un ensemble de valeurs avec celle d'une répartition normale standard (la courbe en forme de cloche classique d'un histogramme). La ligne d'un tracé QQ normal montre les valeurs attendues pour une distribution normale - plus les valeurs sont proches de la ligne, plus la distribution est proche de la normale. Dans cet exemple, la concentration des éléments phosphoriques dans un ensemble d'échantillons de sol est proche de la distribution normale.

Un tracé QQ normal compare les valeurs de distribution des données avec une distribution normale.

L'outil Tracé QQ Normal est l'un des outils d'exploration des données disponibles avec l'extension Geostatistical Analyst.

Les statistiques spatiales, en revanche, se concentrent sur les relations spatiales entre entités : si les entités sont compactes ou dispersées, si elles sont orientées dans une direction particulière, et si elles forment des agrégats. La relation spatiale est généralement définie en tant que distance (de quelle distance les entités sont séparées) mais peut aussi prendre d'autres formes d'interaction entre les entités.

Dans l'exemple ci-dessous, la sortie de l'outil Distance standard (sous forme de cercle) est calculée en utilisant la distance entre chaque observation d'animaux et le centre calculé des observations.

Distance standard et centre moyen d'un groupe de points

Certaines statistiques spatiales tiennent compte des relations spatiales d'entités et des valeurs d'un attribut associé aux entités. C'est ce que l'on appelle les statistiques pondérées : la relation spatiale est influencée par les valeurs. Les statistiques spatiales pondérées servent à trouver si les entités qui ont des valeurs semblables surviennent ensemble - si, par exemple, des écoles avec des résultats de même niveau élevé ou bas forment des agrégats.

Dans l'exemple ci-après, le centre des parcs est pondéré par le nombre de visiteurs dans chaque parc (représenté par la taille des cercles verts).

Centre moyen pondéré de points

Les fonctions statistiques peuvent aussi être classées selon si elles sont descriptives ou inférentielles. Les statistiques descriptives résument certaines caractéristiques des valeurs ou entités que vous analysez : la valeur moyenne, la fréquence de distribution des valeurs, ou la tendance directionnelle d'un groupe d'entités. Les statistiques descriptives sont souvent utiles pour comparer deux ensembles d'entités pour la même surface.

L'exemple suivant compare la répartition des personnes âgées (haut) avec celle des enfants de moins de 5 ans (bas) pour le même ensemble de secteurs de recensement.

Les histogrammes et les résumés statistiques sont une méthode de comparaison des populations.

Dans l'exemple ci-après, les cercles de distance standard pour les populations d'origine amérindienne et africaine aux Etats-Unis montrent que la répartition de la population d'origine africaine dans ce secteur est beaucoup plus compacte.

La distance standard et les centres moyens sont une méthode de comparaison des populations.

Les statistiques inférentielles utilisent la théorie des probabilités pour prévoir l'occurrence possible de valeurs (à l'aide d'un ensemble de valeurs connues), ou pour évaluer la probabilité qu'un modèle ou une tendance visible dans les données n'est pas le fait du hasard. La fonction fournit une mesure du modèle ou de la relation. Vous effectuez ensuite un test statistique sur cette mesure, pour déterminer son niveau de confiance. Si l'analyse statistique indique que des cambriolages se produisent dans des agrégats, vous effectuez un test pour déterminer la possibilité de l'intervention du hasard dans la constitution des agrégats. Par exemple, vous pouvez trouver 90 % de chances que les agrégats ne sont pas survenues par hasard, ce qui indique que les cambriolages sont probablement liés entre eux d'une façon ou d'une autre. Essentiellement en vue de déterminer la probabilité, le test compare la mesure que vous obtenez pour les entités existantes à la mesure attendue pour le même nombre d'entités réparties sur la même zone, mais distribuée aléatoirement.

Dans l'exemple ci-après, la carte de gauche montre les agrégats de secteurs de recensement comptant un nombre élevé de personnes âgées (orange) ou un nombre faible (bleu), à un niveau de probabilité de 90 %. La carte de droite montre des agrégats à un niveau de probabilité de 99 %.

Comparaison des agrégats détectées à des niveaux différents de probabilité.

Fonctions d'analyse statistique

Les fonctions statistiques d'ArcGIS Desktop se trouvent dans ArcMap, ArcCatalog et le géotraitement, ainsi que dans deux extensions : Spatial Analyst et GeoStatistical Analyst.

Statistiques de table

Un ensemble principal de statistiques descriptives qui récapitulent les valeurs pour un seul champ est disponible à plusieurs emplacements d'ArcGIS Desktop, la fenêtre de la table d'ArcMap, l'onglet d'aperçu de la table d'ArcCatalog, et le jeu d'outils Statistiques (dans la boîte à outils Analyse).

Fonction

Emplacement

Statistiques

Sortie

Option du menu Statistiques

Fenêtre de table d'ArcMap ou onglet d'aperçu de table d'ArcCatalog

Count Minimum Maximum Sum Mean Standard Deviation Frequency histogram

Les résultats s'affichent dans une fenêtre.

Outil Résumés statistiques

Boîte à outils Analyse/jeu d'outils Statistiques

Minimum Maximum Sum Mean Standard Deviation Range First Last

Les résultats sont écrits dans une nouvelle table.

Tableau des principales fonctions de résumés statistiques pour un champ unique

Pour récapituler un champ par un ou plusieurs autres champs (par exemple, pour compter le nombre de parcelles dans chaque classe d'utilisation du sol, additionner la surface dans chaque classe d'utilisation du sol ou trouver la taille moyenne de parcelle dans chaque classe), utilisez l'option Récapituler de la fenêtre de table d'ArcMap, ou l'outil Fréquence du jeu d'outils Statistiques de la boîte à outils Analyse.

Fonction

Emplacement

Statistiques

Sortie

Option du menu Récapituler

Fenêtre de table d'ArcMap (cliquer avec le bouton droit sur un nom de champ)

Minimum Maximum Average (mean) Sum Standard Deviation Variance

Les résultats sont écrits dans une nouvelle table.

Outil Fréquence

Boîte à outils Analyse/jeu d'outils Statistiques

Total Somme

Les résultats sont écrits dans une nouvelle table.

Tableau des principales fonctions de résumés statistiques pour plusieurs champs

Statistiques spatiales

La boîte à outils Statistiques spatiales contient un certain nombre de routines statistiques pour l'analyse de la distribution d'un ensemble d'entités, l'analyse de modèles et l'identification d'agrégats.

Domaine fonctionnel

Jeu d'outils

Outils

Mesures de distribution géographique

Mesure de distributions géographiques

Mean Center Central Feature Standard Distance Directional Distribution (Standard Deviational Ellipse) Linear Directional Mean

Analyse de modèle géographique

Analyse de modèles

Average Nearest Neighbor Spatial Autocorrelation (Moran's I) High/Low Clustering (Getis-Ord General G)

Analyse d'agrégats géographiques

Appariement d’agrégats

Cluster and Outlier Analysis (Anselin Local Moran's I) Hot Spot Analysis (Getis-Ord Gi*)

Fonctions et emplacements des outils de statistiques spatiales

Statistiques de raster

L'extension Spatial Analyst comprend plusieurs fonctions statistiques servant à analyser des rasters, principalement pour récapituler des valeurs attributaires et attribuer les résumés statistiques aux cellules dans une nouvelle couche raster. Celles-ci se trouvent dans plusieurs jeux d'outils différents avec la boîte à outils Spatial Analyst.

Outil

Emplacement

Entrée

Sortie

Utilité

Statistiques de cellule

Jeu d'outils Local

Rasters multiples

Raster

Calcule les statistiques spécifiées pour chaque cellule en fonction de plusieurs entrées

Statistiques focales

Jeu d'outils Voisinage

Raster

Raster

Récapitule les valeurs d'un raster dans un voisinage défini autour de chaque cellule et attribue la valeur à cette cellule dans le raster en sortie

Statistiques de points

Jeu d'outils Voisinage

Entités ponctuelles

Raster

Récapitule les valeurs pour des attributs d'entités ponctuelles dans un voisinage défini et attribue des valeurs aux cellules dans le raster en sortie

Statistiques de lignes

Jeu d'outils Voisinage

Entités linéaires

Raster

Récapitule les valeurs pour des attributs d'entités de lignes dans un voisinage défini et attribue des valeurs aux cellules dans le raster en sortie

Statistiques zonales

Jeu d'outils Zonaux

Raster ou entités surfaciques

Raster ou table récapitulative

Récapitule les valeurs d'une surface raster par catégories ou classes (zones) du raster en entrée ou de jeu de données de polygone

Tableau récapitulatif des outils de statistiques raster

Outils d'exploration de données

Geostatistical Analyst, tout en se concentrant sur la création de surfaces à partir d'un ensemble de points d'échantillonnage, contient un ensemble d'outils pour l'exploration visuelle des valeurs de données, à l'aide de diagrammes et de graphiques. Ceux-ci sont souvent utilisés avant la création de surfaces, pour décider quels paramètres utiliser pour un ensemble spécifique de données, mais ils servent aussi généralement à explorer un jeu de données. Ces outils permettent de déterminer la distribution de valeurs, s'il y a une tendance directionnelle dans les données, et s'il existe des relations entre deux attributs (par exemple, pour voir si les valeurs varient ensemble, ou inversement). Les outils sont disponibles par le biais de l'option +++Explorer des données sur la barre d'outils Geostatistical Analyst.

Rubriques connexes


7/10/2012