通过对数据进行去聚来调整优先采样
通常,数据的空间位置不是随机或规则间隔的。由于各种原因,数据可能已被优先采样,某些位置的采样点密度可能要比其他位置高。要准确反映总体直方图,正确实现采样的正态得分变换和直方图(还有累积分布)十分重要。如果数据进行空间自相关时被优先采样,则通过样本得到的直方图可能不会反映总体直方图。
在去聚示例的左上图中,沿线的 100 个位置处的总体值以实心圆的形式指定。这些值是通过具有常数均值和较强正自相关性的空间自相关过程模拟得到的。样本数据是从第一个点开始每隔一个点选取的点,以圆圈显示。在去聚示例的右侧,总体直方图以蓝色表示,采样直方图以紫色表示。
由于样本是总体的一半,您可能希望样本直方图条块高度约是总体直方图条块的一半,且有一些变化。在左下方,数据被优先采样,从开始到位置 34 每五个位置出现采样,之后到位置 70 每个位置处都出现采样,然后又是每五个位置处出现采样直到最后。最终结果也是对总体的一半进行采样。优先采样较集中出现在空间位置的中间,使得中间数据值在样本中占据的比例较大,因此范围从 -3 到 1 之间的值的直方图条块几乎与总体条块相等。与此同时,较低和较高的值未在样本直方图中充分体现出来。
避免优先采样的一种解决方案是对数据进行加权,其中密集采样区域内的数据将获得较小的权重(将缩小上述优先采样示例中介于 -3 和 1 之间的值的样本直方图条块),而稀疏采样区域内的数据将获得较大的权重(将扩大较低和较高数据值处的样本直方图条块)。Geostatistical Analyst 提供了两种方法。默认方法是单元去聚。在单元去聚中,矩形单元排列在格网的数据位置上,附加到每个数据位置的权重与其单元中的数据点数成反比。
剩下的就是选择格网大小和方向。Geostatistical Analyst 提供了一个图形,显示各种单元大小的所有数据中的加权平均值。如果数据已在高值区域中优先采样,建议选择与最小加权平均值对应的单元大小,反之,如果数据已在低值区域中优先采样,则选择与最大加权平均值对应的单元大小。
另一种方案是使用面方法,此方法在每个空间数据位置周围定义一个面,使得面内的所有位置到该数据位置的距离小于到其他任何数据位置的距离,如下图所示。
数据位置以小点显示,面围绕这些小点进行绘制,并用彩色晕渲指示这些面的大小。这种方法的理念是使每个数据位置的权重与数据所“表示”的区域大小成比例。这种方法的问题是定义边权重很困难。除非边框将数据包围,否则边点通常会获得较大的权重。在 Geostatistical Analyst 中,边框是一个矩形,通常需对边缘位置指定特别大的权重。