Cluster and Outlier Analysis (Anselin Local Moran's I) (Statistiques spatiales)
Récapitulatif
A partir d'un ensemble d'entités pondérées, identifie des hot spots, des cold spots et des points spatiaux aberrants statistiquement significatifs, à l'aide de la statistique Anselin Local Moran's I.
Illustration
Utilisation
-
Cet outil crée, pour chaque entité dans la Classe d'entités en entrée, une Classe d'entités en sortie avec les attributs suivants : indice I local de Moran, score z, valeur p et COType. Les noms de champ de ces attributs sont également des valeurs en sortie dérivées de l'outil qui peuvent éventuellement être utilisées dans les modèles et les scripts personnalisés.
-
Les résultats de score z et de valeur p sont des mesures de signification statistique qui indiquent si l'on peut rejeter l'hypothèse nulle. En fait, ils indiquent si la similarité apparente (agrégation spatiale de valeurs élevées ou faibles) ou la dissimilarité (point spatial aberrant) est plus prononcée que dans un modèle de distribution aléatoire.
-
Un score z positif élevé pour une entité indique que les entités environnantes ont des valeurs similaires (valeurs élevées ou valeurs faibles). Le champ COType de la Classe d'entités en sortie prendra la valeur HH pour un agrégat statistiquement significatif (niveau 0,05) de valeurs élevées et LL pour un agrégat statistiquement significatif (niveau 0,05) de valeurs faibles.
-
Un faible score z négatif (par exemple, < -1,96) pour une entité indique un point aberrant spatial statistiquement significatif (niveau 0,05). Le champ COType de la Classe d'entités en sortie indique si l'entité a une valeur élevée et est entourée par des entités présentant des valeurs faibles (HL) ou si l'entité a une valeur faible et est entourée par des entités présentant des valeurs élevées (LH).
-
Le score z est basé sur le calcul d'hypothèse nulle aléatoire. Pour plus d'informations sur les scores z, reportez-vous à la rubrique Qu'est-ce qu'un score z ? Qu'est-ce qu'une valeur p ?
-
Les calculs basés sur la distance euclidienne ou de Manhattan nécessitent des données projetées afin de pouvoir mesurer précisément les distances.
-
Pour les entités linéaires et surfaciques, les centroïdes d'entité sont utilisés dans les calculs de distance. Pour les multi-points, les polylignes ou les polygones comprenant plusieurs parties, le centroïde est calculé à l'aide du centre moyen pondéré de toutes les parties d'entité. La pondération pour les entités ponctuelles est de 1 ; pour les entités linéaires, elle correspond à la longueur et pour les entités surfaciques, à la superficie.
-
Le Champ en entrée doit contenir différentes valeurs. Les formules mathématiques de cette statistique requièrent que la variable analysée fluctue quelque peu ; elle ne peut pas aboutir si toutes les valeurs en entrée sont égales à 1, par exemple. Si vous souhaitez utiliser cet outil pour analyser le modèle spatial de données d'incident, vous devrez peut-être agréger les données d'incident.
-
Le choix du paramètre Conceptualisation de relations spatiales doit refléter les relations inhérentes entre les entités que vous analysez. Plus la modélisation de l'interaction des entités dans l'espace est réaliste, plus les résultats sont précis. Tenez compte de ces recommandations. Voici quelques conseils supplémentaires :
-
FIXED_DISTANCE_BAND
Point important, la valeur par défaut du paramètre Canal distance ou distance seuil garantit que chaque entité dispose au moins d'un voisin. Mais bien souvent, cette valeur par défaut n'est pas la distance la plus appropriée à l'analyse.
Cliquez ici pour en savoir plus sur le paramètre Canal distance ou distance seuil.
- INVERSE_DISTANCE ou INVERSE_DISTANCE_SQUARED
Lorsque une valeur nulle (0) est entrée pour le paramètre Canal distance ou distance seuil, toutes les entités sont considérées voisines de toutes les autres entités ; lorsque ce paramètre n'est pas défini, la distance seuil par défaut est appliquée.
Les pondérations pour les distances inférieures à 1 deviennent instables. La pondération des entités séparées par moins d'une unité de distance (ce qui arrive souvent avec les projections du système de coordonnées géographiques), se voit affecter la valeur 1.
Attention :L'analyse des entités associées à une projection de système de coordonnées géographiques n'est pas recommandée lorsque vous sélectionnez une méthode de conceptualisation spatiale fondée sur l'inverse de la distance (INVERSE_DISTANCE, INVERSE_DISTANCE_SQUARED ou ZONE_OF_INDIFFERENCE).
Pour ces options basées sur l'inverse de la distance, une pondération de 1 est attribuée chaque fois que deux points sont coïncidents pour éviter une division par zéro. Ainsi, aucune entité n'est exclue de l'analyse.
-
FIXED_DISTANCE_BAND
-
Des options supplémentaires pour le paramètre Conceptualisation de relations spatiales sont disponibles avec les outils Générer la matrice de pondérations spatiales ou Générer les pondérations spatiales de réseau. Pour pouvoir bénéficier de ces options supplémentaires, utilisez l'un de ces outils afin de construire le Fichier de matrice de pondérations spatiales avant l'analyse ; sélectionnez GET_SPATIAL_WEIGHTS_FROM_FILE pour le paramètre Conceptualisation de relations spatiales ; et pour le Fichier de matrice de pondérations, spécifiez le chemin d'accès au fichier de matrice de pondérations spatiales que vous avez créé.
-
Les couches peuvent permettre de définir la Classe d'entités en entrée. Lors de l'utilisation d'une couche avec une sélection, seules les entités sélectionnées sont incluses dans l'analyse.
- Si cet outil fait partie d'un outil de modèle personnalisé, le lien HTML apparaît seulement dans la fenêtre Résultats s'il est défini en tant que paramètre du modèle avant l'exécution de l'outil.
- Pour un meilleur affichage des graphiques HTML, assurez-vous que votre moniteur est défini pour une résolution de 96 PPP.
- Fichiers de matrice de pondérations spatiales ASCII :
- Les pondérations sont utilisées en l'état. Les relations entité à entité manquantes sont supposées nulles.
- Si les pondérations sont standardisées par lignes, le résultats des analyses portant sur les ensembles de sélection seront vraisemblablement incorrects. Si vous devez exécuter votre analyse sur un ensemble de sélection, convertissez le fichier de pondérations spatiales ASCII en fichier .swm en lisant les données ASCII dans une table, puis en utilisant l'option CONVERT_TABLE de l'outil Générer la matrice de pondérations spatiales.
- Fichier de matrice de pondérations spatiales avec mise en forme .SWM
- Si les pondérations sont standardisées par lignes, elles seront standardisées à nouveau pour les ensembles de sélection. Sinon, les pondérations sont utilisées en l'état.
L'exécution de votre analyse avec un fichier de matrice de pondérations spatiales ASCII sollicite beaucoup de mémoire. Pour les analyses portant sur plus de 5 000 entités, envisagez de convertir votre fichier de matrice de pondérations spatiales ASCII en fichier avec mise en forme .swm. En premier lieu, placez vos pondérations ASCII dans une table avec mise en forme (à l'aide d'Excel, par exemple). Exécutez ensuite l'outil Générer la matrice de pondérations spatiales à l'aide de CONVERT_TABLE pour le paramètre Conceptualisation de relations spatiales. La sortie sera un fichier de matrice de pondérations spatiales avec mise en forme .swm.
-
Lorsque l'outil s'exécute dans ArcMap, la Classe d'entités en sortie est ajoutée automatiquement à la table des matières et le rendu par défaut est appliqué au champ COType. Le rendu appliqué est défini par un fichier de couche dans <ArcGIS>/Desktop10.x/ArcToolbox/Templates/Layers. Vous pouvez appliquer à nouveau le rendu par défaut, si nécessaire, en important la symbologie des couches modèle.
The Output Feature Class includes a SOURCE_ID field which allows you to Join it to the Input Feature Class, if needed.
-
La rubrique d'aide Modélisation de relations spatiales fournit des informations supplémentaires à propos des paramètres de cet outil.
Si vous fournissez un Fichier de matrice de pondérations avec une extension .SWM ou .swm, l'outil suppose que le fichier de matrice de pondérations spatiales a été créé à l'aide des outils Générer la matrice de pondérations spatiales ou Générer les pondérations spatiales de réseau. Sinon, cet outil suppose qu'il s'agit d'un fichier de matrice de pondérations spatiales ASCII. Dans certains cas, le comportement peut varier selon le type de fichier de matrice de pondérations spatiales que vous utilisez :
Lorsque vous utilisez des fichiers de formes, n'oubliez pas qu'ils ne peuvent pas stocker de valeurs Null. Les outils ou d'autres procédures qui créent des fichiers de formes à partir des entrées autres que des fichiers de formes peuvent stocker ou interpréter des valeurs Null comme zéro. Cela peut aboutir à des résultats inattendus. Reportez-vous également à Remarques concernant le géotraitement pour la sortie de fichiers de formes.
Dans les versions antérieures à ArcGIS 10.0, la classe d'entités en sortie était une copie de la classe d'entités en entrée, à laquelle étaient rajoutés les champs de résultats de COType, score z et valeur p. Dans ArcGIS 10.0 et les versions ultérieures, la classe d'entités en sortie inclut uniquement les résultats et les champs utilisés dans l'analyse.
Syntaxe
Paramètre | Explication | Type de données |
Input_Feature_Class |
Classe d'entités pour laquelle l'analyse d'agrégation/de point aberrant est effectuée. | Feature Layer |
Input_Field |
Champ numérique à évaluer. | Field |
Output_Feature_Class |
Classe d'entités en sortie qui reçoit les champs de résultats. | Feature Class |
Conceptualization_of_Spatial_Relationships |
Indique la façon dont les relations spatiales sont conceptualisées parmi les entités.
| String |
Distance_Method |
Spécifie le mode de calcul des distances de chaque entité avec les entités voisines.
| String |
Standardization |
La standardisation par lignes est recommandée chaque fois que la répartition de vos entités est potentiellement influencée par la conception de l'échantillonnage ou un plan d'agrégation imposé.
| String |
Distance_Band_or_Threshold_Distance |
Spécifie une distance limite pour les options Inverse Distance et Fixed Distance. Les entités se trouvant à l'extérieur de la limite spécifiée pour une entité cible ne sont pas prises en compte dans les analyses pour cette entité. Cependant, pour Zone of Indifference, l'influence des entités situées hors de la distance donnée est réduite avec la distance, tandis que les entités se trouvant dans le seuil de distance sont considérées à part égale. La valeur entrée doit correspondre à celles du système de coordonnées en sortie. Pour les conceptualisations basées sur l'inverse de la distance de relations spatiales, une valeur de 0 indique qu'aucune distance seuil n'est appliquée ; lorsque ce paramètre n'est pas défini, une valeur de seuil par défaut est calculée et appliquée. Cette valeur par défaut correspond à la distance euclidienne permettant de garantir que chaque entité présente au moins un voisin. Ce paramètre n'a aucun effet lorsque les conceptualisations spatiales de contiguïté polygonale ou d'extraction des pondérations spatiales à partir du fichier sont sélectionnées. | Double |
Weights_Matrix_File (Facultatif) |
Chemin d'accès à un fichier contenant les pondérations spatiales qui définissent les relations spatiales parmi les entités. | File |
Exemple de code
Le script de fenêtre Python suivant illustre l'utilisation de l'outil ClusterandOutlierAnalysis.
import arcpy arcpy.env.workspace = "c:/data/911calls" arcpy.ClustersOutliers_stats("911Count.shp", "ICOUNT","911ClusterOutlier.shp","GET_SPATIAL_WEIGHTS_FROM_FILE","EUCLIDEAN_DISTANCE", "NONE","#", "euclidean6Neighs.swm")
Le script Python autonome ci-dessous illustre l'utilisation de l'outil ClusterandOutlierAnalysis.
# Analyze the spatial distribution of 911 calls in a metropolitan area # using the Cluster-Outlier Analysis Tool (Anselin's Local Moran's I) # Import system modules import arcpy # Set geoprocessor object property to overwrite outputs if they already exist arcpy.gp.OverwriteOutput = True # Local variables... workspace = r"C:\Data\911Calls" try: # Set the current workspace (to avoid having to specify the full path to the feature classes each time) arcpy.env.workspace = workspace # Copy the input feature class and integrate the points to snap # together at 500 feet # Process: Copy Features and Integrate cf = arcpy.CopyFeatures_management("911Calls.shp", "911Copied.shp", "#", 0, 0, 0) integrate = arcpy.Integrate_management("911Copied.shp #", "500 Feet") # Use Collect Events to count the number of calls at each location # Process: Collect Events ce = arcpy.CollectEvents_stats("911Copied.shp", "911Count.shp", "Count", "#") # Add a unique ID field to the count feature class # Process: Add Field and Calculate Field af = arcpy.AddField_management("911Count.shp", "MyID", "LONG", "#", "#", "#", "#", "NON_NULLABLE", "NON_REQUIRED", "#", "911Count.shp") cf = arcpy.CalculateField_management("911Count.shp", "MyID", "[FID]", "VB") # Create Spatial Weights Matrix for Calculations # Process: Generate Spatial Weights Matrix... swm = arcpy.GenerateSpatialWeightsMatrix_stats("911Count.shp", "MYID", "euclidean6Neighs.swm", "K_NEAREST_NEIGHBORS", "#", "#", "#", 6) # Cluster/Outlier Analysis of 911 Calls # Process: Local Moran's I clusters = arcpy.ClustersOutliers_stats("911Count.shp", "ICOUNT", "911ClusterOutlier.shp", "GET_SPATIAL_WEIGHTS_FROM_FILE", "EUCLIDEAN_DISTANCE", "NONE", "#", "euclidean6Neighs.swm") except: # If an error occurred when running the tool, print out the error message. print arcpy.GetMessages()
Environnements
- Système de coordonnées en sortie
La géométrie de l'entité est projetée dans le système de coordonnées en sortie avant l'analyse, donc les valeurs entrées pour le paramètre Canal distance ou distance seuil doivent correspondre à celles spécifiées dans le système de coordonnées en sortie. Tous les calculs mathématiques sont basés sur la référence spatiale du système de coordonnées en sortie.