绘制数据
任何分析的第一步都是绘制和检查数据。这可以提供数据集的空间组成部分的第一印象,而且可能给出异常值和错误数据值、全球趋势和其他系数间的空间自相关的主导方向的指示,所有这些在开发正确反映感兴趣的现象的插值模型的过程中都非常重要。
ArcGIS 提供很多方法来可视化数据:ArcMap 可以访问用于高亮显示数据不同方面的很多分类方案和色带,而 ArcScene 可以在 3D 空间渲染数据,这在查找局部异常值和全球趋势时非常有用。尽管没有正确的方法来显示数据,下图显示了相同数据的不同渲染,从中可以看出不同方面的兴趣。有关 ArcGIS 中可用分类方案的详细信息,请参阅对分级符号的数值字段进行分类。
ArcMap 提供的数据的初始视图对所有采样点使用相同的符号。此视图提供了样本空间范围和研究区域覆盖范围(如果有边界)的信息,并显示是否存在比其他区域采样更多更密的区域(称为优先采样区域)。在某些插值模型(特别是构建为地统计模拟基础的简单克里金模型和析取克里金模型)中,使用去聚方法(请参阅执行去聚以调整优先采样)来获取对现象具有代表性和不受研究区域的高或低值区域的过采样影响的数据集非常重要。
绘制数据的第二步是使用分类方案和表示数据值和其空间关系的色带。默认情况下,ArcMap 对数据应用自然间断点分类法。如下图所示,下图中使用了五个类和蓝色表示冷水温度及红色表示较暖水温的颜色方案。
自然间断点查找相邻数据对(数据以值存储,而不是位置)在统计上的较大差异。在这种情况下,较暖温度出现在最西部的样本上,而研究区域中心的样本则是较冷的。距离大陆 Alaska 最近的样本显示较暖温度。地图也显示了沿西北到东南沿线的温度相当稳定。这两项调查结果可以解释为采样区中心从西北到东南有较冷水流通过。这是数据中存在的全局趋势,可以使用全局多项式插值法或局部多项式插值法建模为二阶多项式,或者建模为克里金法中的趋势。
其他可用于对数据进行分类的方法有相等间隔(使用相等宽度的类)和分位数(将数据分为均具有相同数据值数目的类)。这两种分类如下所示,主要显示了此数据集与自然间断点分类相同的空间要素。
基于数据值统计分布的分类提供了数据的不同视图。该渲染有助于识别异常值和错误数据。下图使用了标准差分类和色带,该色带以红色显示与平均值之间的正差,以蓝色显示与平均值之间的负差。
此分类优化了初步评估:与平均值之间的正差出现在最西部的样本中,而采样区中心存在从西北到东南的温度较冷(与平均值之间为负差)区域。距离 Alaskan 大陆最近的样本与平均值(以黄色显示)之间未偏离太多。可以对标准差分类进行手动调整以表示查找异常值更常用的方法:将分间隔调整为显示与平均值之间的偏差超过 1 标准差的值。如果数据是正态(高斯)分布的,数据的中央部分(即处于平均值减去 1 标准差和平均值加上 1 标准差之间的数值)将包含 64% 的数据值。此调整分类如下所示,更清楚地显示了与平均值偏差较大的值。在这种情况下,标准差分类确认了使用自然间断点、相等间隔和分位数分类所观察到的情况。
在直观地浏览数据时,研究类的数目如何影响数据的渲染可能很有用。类的数目要足以显示数据值中的局部细节,但又不能太多而使常规要素隐藏起来。对于这些示例中使用的数据,五个类便已足够。九个类并未给地图添加多少细节,反而使主要空间要素表现得不够明确。