查找全局异常值和局部异常值

全局异常值是相对于数据集中的所有值而言具有非常高值或非常低值的已测量采样点。例如,如果 100 个点中有 99 个点的值都介于 300 和 400 之间,而第 100 个点的值为 750,那么第 100 个点可能就是一个全局异常值。

局部异常值是一个已测量采样点,其值处于整个数据集的正常值域范围内,但查看周围点时,其值则显得异常高或异常低。例如,下图是地表中山谷的横截面。山谷中心内的一个点相对其周围点具有异常高值,但是与整个数据集比较时却并不异常。

局部异常值
局部异常值

识别异常值很重要的原因有两个:一方面,这些异常值可能是现象中的真实异常情况,而另一个方面,这些值可能是错误测量或记录的。

如果异常值是现象中的真实异常情况,那么这可能是研究和理解现象的最重要的位置点。例如,矿脉上的一个样本可能是异常值,那么其位置对于矿业公司是非常重要的。

如果异常值是由数据输入过程中的错误所导致的,那么在创建表面之前应该对其进行校正或移除。因为异常值对半变异函数建模和相邻值的影响,它进而会对预测表面产生不利影响。

通过直方图工具查找异常值

直方图工具可用于选择分布形态尾部上的点。所选的点显示在 ArcMap 数据视图中。如果极值是孤立的位置(例如,被非常不同的值所包围),则可能需要做进一步的调查,而且在必要情况下,需将其移除。

直方图和 QQ 图地图
直方图和 QQ 图地图

在以上示例中,高臭氧值不是异常值,不应从数据集中移除。

通过半变异函数/协方差云识别异常值

如果数据集中存在具有异常高值的全局异常值,则无论怎样,距离所有点和异常值的配对在半变异函数云中也将具有高值。如以下半变异函数云和直方图中所示。请注意,半变异函数中存在两个主要的点地层。如果擦除上层地层中的点,如图所示,可以在 ArcMap 视图中发现所有这些高值都来自与一个单个位置(全局异常值)的配对。因此,点的上层是通过所有与单个异常值的位置配对创建而成,而下层则由剩余位置中的配对组成。当查看直方图时,可以在直方图的右尾部看到一个高值,再次识别出全局异常值。该值可能是输入错误导致,应进行移除或校正。

全局异常值
全局异常值

当存在并未超出整个分布范围的局部异常值时,其相对周围的值来说,却显得异常。在以下所示局部异常值直方图中可以看出,彼此靠近的成对位置具有高半变异函数值(这些位于 x 轴的最左端的点表示它们彼此靠近,在 y 轴上存在的高值表示半变异函数值高)。当把这些点擦除后,可以看出所有这些点都和一个单个位置配对。当查看直方图时,会发现没有异常的单个值。有问题的位置高亮显示在直方图的下尾部,并和较高的周围值配对(参见直方图中的高亮显示点)。此位置可能是局部异常值。在确定该点上的值是错误的,还是实际上反映了现象的真实特征并应作为模型的一部分之前,应该进行进一步的调查。

局部异常值
局部异常值

通过 Voronoi 制图查找异常值

Voronoi 地图基于聚类方法和熵方法可用于标识可能的异常值。

熵值为相邻像元间的相异性提供了度量值。本质上,您会期望距离较近的事物比距离较远的事物更相似。因此,局部异常值可通过高熵区域识别。

通过聚类方法可识别与其相邻像元不相似的像元。一般认为特定像元中记录的值至少应和一个相邻值相似。因此,此工具可用于识别可能的异常值。


7/10/2012