空间关系建模
本文档提供了有关工具参数的更多信息,而且介绍了使用空间统计工具分析数据时会遇到的重要的基本词汇和概念。
空间关系的概念化
空间统计分析和传统(非空间)统计分析的一个重要区别是空间统计分析将空间和空间关系直接整合到算法中。因此,空间统计工具箱中的很多工具都要求用户在执行分析之前为空间关系的概念化表述参数选择一个值。常见的概念化包括反距离、行程时间、固定距离、K 最近邻域和邻接。您要使用的空间关系概念化表述主要取决于要测量的对象。例如,要测量特定种类种子植物的聚集程度,使用反距离可能最适合。但是,如果要评估某一地区通勤者的地理分布,行程时间和行程成本可能是描述这些空间关系的更好选择。对于某些分析,空间和时间可能没有更抽象的概念重要,例如熟悉程度(某些事物越熟悉,功能上越接近)或空间交互(例如,洛杉矶与纽约之间的通话数要比纽约与纽约附近较小城镇(例如波基普西市)之间的通话数更多;有些人可能认为洛杉矶和纽约在功能上更接近)。
下面介绍了空间关系的概念化表述参数的各个选项。所选的选项决定了用于评估相邻要素环境中各个要素工具的相邻关系。这些工具包括空间自相关(全局 Moran's I)、热点分析(Getis-Ord Gi*) 和聚类和异常值分析(Anselin 局部 Moran's I)。请注意,某些选项只有在使用生成空间权重矩阵或生成网络空间权重工具时才可用。
反距离、反距离平方(阻抗)
使用“反距离”选项时,空间关系的概念模型是一种阻抗或距离衰减。任何要素都会影响其他所有要素,但距离越远,影响越小。使用反距离这一概念化表述时,通常要指定一个距离范围或距离阈值以减少所需的计算数(尤其对于大型数据集而言)。如果未指定任何距离范围或距离阈值,将会为您计算默认阈值。通过将距离范围或距离阈值设置为零,可将每一个要素都强制指定为其他所有要素的邻域。
反欧氏距离适用于对连续数据(如温度变化)进行建模。当分析涉及硬件存储的位置或其他固定的城市设施位置时,道路网络数据不再适用,而反曼哈顿距离可能最为合适。使用“反距离平方”选项时的概念模型与使用“反距离”时相同,只是曲线的坡度更陡,因此邻域影响下降得更快,并且只有目标要素的最近邻域会对要素的计算产生重大影响。
距离范围(影响的范围)
对于某些工具(如热点分析),固定距离范围是默认空间关系的概念化。通过“固定距离范围”选项,可以对数据施加一个空间交互的“影响范围”或移动窗口概念模型。在为距离范围或距离阈值指定的距离范围内,将对邻近要素环境中的每个要素进行分析。指定距离范围内的邻域具有相等的权重。指定距离之外的要素不会影响计算(它们的权重为零)。如果要评估处于特定(固定)空间尺度下数据的统计属性,请使用“固定距离范围”方法。如果要研究通勤模式并且已知平均上下班路程为 15 英里,则最好使用 15 英里的固定距离进行分析。请参阅选择固定距离。
无差别的区域
空间关系的概念化参数的“无差别的区域”选项将“反距离”模型和“固定距离范围”模型合并为一体。距离范围或距离阈值内的所有要素都包含在对目标要素的分析中。超过关键距离后,影响级别(权重)会快速下降。假设您正在找工作,而且可在一份 5 英里远的工作地和一份 6 英里远的工作地之间进行选择。这种情况下,在决定接受哪份工作时您可能不会过多地考虑距离。现在,假设您要在一份 5 英里远的工作地和另一份 20 英里远的工作地之间进行选择。这种情况下,距离会变得更像是阻抗并且可能影响到最终决策。如果想要保持分析的尺度不变,但不想在目标要素计算中所包含的相邻要素间添加明显的边界,请使用此方法。
面邻接(一阶)
对于面要素类,您可选择一阶邻接。共享边(具有重合边界)的面包含在目标面的计算中。不共享边的面被排除在目标要素计算之外。该选项还称为“仅面邻接边”。“面邻接边和拐角”(使用生成空间权重矩阵工具时可用)可根据共享边界(边)或拐角(结点)的面构造邻域。要对某些类型的传染过程进行建模或要处理以面的形式显示的连续数据时,可以对面要素使用这些邻接概念化中的一种。
K 最近邻域
还可以构造邻域关系,以便每个要素都可在其固定数量的最近邻域空间环境内进行评估。如果 K(邻域数)为 8,则距目标要素最近的 8 个邻域都会包含在该要素的计算中。在要素密度高的位置处,分析的空间范围会比较小。与此类似,要素密度稀的位置,分析的空间范围会比较大。此空间关系模型的一个优势在于它可确保每个目标要素都有一些邻域,即使要素密度在研究区域内变化较大时也是如此。使用生成空间权重矩阵工具时该方法可用。
Delaunay 三角测量(自然邻域)
使用“Delaunay 三角测量”选项可构造邻域,方法是通过点要素或要素质心创建 Voronoi 三角形,使得每个点/质心都是三角形结点。由三角形的边连接的结点被视为相邻结点。使用 Delaunay 三角测量可确保每个要素至少具有一个邻域,即使数据包含岛和/或变化明显的要素密度。使用生成空间权重矩阵工具时该方法可用。
通过文件(用户定义的空间关系)获取空间权重
您还可以提供定义自定义的空间关系的概念化的格式化 ASCII 文本文件的路径(例如基于空间交互)。如果要使用根据网络数据集获得的行程时间或行程成本定义空间关系,可使用生成网络空间权重工具创建空间权重矩阵文件,然后使用得到的 .swm 文件进行分析。还可以使用生成空间权重矩阵工具构造空间权重矩阵文件。如果要素的空间关系在表中定义,则可以使用生成空间权重矩阵工具将该表转换为空间权重矩阵 (.swm) 文件。将表转换为 .swm 文件需要特定字段。
选择空间关系的概念化:最佳做法
对要素在空间中彼此交互方式构建的模型越逼真,结果就越准确。空间关系的概念化参数的选择应反映要分析的要素之间的固有关系。有时,您的选择还会受到数据特征的影响。
例如,反距离方法最适合对连续数据,或最适合对符合此种情形的对象进行建模:两个要素在空间上越靠近,它们彼此交互/影响的可能性就越大。使用此空间概念化参数,每个要素都可能是其他各个要素的邻域,而对于大型数据集,这将涉及巨大的计算量。使用反距离概念化参数时,应始终尝试添加一个距离范围或距离阈值。这对于大型数据集尤其重要。如果将距离范围或距离阈值参数留空,系统将计算距离阈值,但这可能不是分析所需的最适当距离;默认的距离阈值是能够确保每个要素至少具有一个邻域的最小距离。
固定距离范围方法适用于面大小变化较大的面数据(例如,在研究区域边缘的面非常大,而在研究区域中心的面非常小)。运行热点分析(Getis-Ord Gi*) 时,建议也对点数据使用“固定距离范围”。有关帮助您为分析确定适当的距离范围的策略,请参阅下面的选择固定距离。
无差别的区域概念化适用于以下情况:“固定距离”适合,但对邻域关系添加明显的边界不是正确的数据表示。请切记,“无差别的区域”概念模型会将每个要素视为其他各个要素的邻域。该选项不适合大型数据集,因为提供的距离范围或距离阈值值不会限制邻域数,而只是指定空间关系的强度在何处开始减小。
当面在大小和分布上类似并且空间关系是面的临近性的函数(这是指如果两个面共享一个边界,则它们之间的空间交互将增加)时,面邻接概念化很有效。选择面邻接概念化时,您几乎总要为具有行标准化参数的工具选择行标准化。
如果想要确保具有一个用于分析的最小邻域数,则 K 最近邻选项有效。特别是当与要素相关的值存在偏斜(不是正态分布)时,在至少有八个左右的相邻要素(这只是经验规则)的环境内评估各要素将十分重要。当数据的分布在研究区域上存在变化以致于某些要素远离其他所有要素时,该方法十分适用。但请注意,分析的空间环境会根据要素的稀疏程度/密集程度的变化而发生变化。当固定分析的比例不如固定相邻对象数目重要时,K 最近邻方法较适合。
有些分析者将 Delaunay 三角测量视作可构建一组要素的自然邻域的方法。当数据包含岛屿面(未与其他面共享任何边界的孤立面),或者当要素的空间分布非常不均匀时,该方法是一个很好的选择。与 K 最近邻方法类似,Delaunay 三角测量可确保每个要素至少具有一个相邻要素,但是要使用数据本身的分布确定每个要素获得的相邻要素数。
对于某些应用程序,最好以行程时间或行程距离对空间交互进行建模。如果要对城市服务的访问性进行建模,例如要查找城市犯罪集中的地区,借助网络对空间关系进行建模是一个好办法。分析之前使用生成网络空间权重工具创建一个空间权重矩阵文件 (.swm);为空间关系的概念化值选择 GET_SPATIAL_WEIGHTS_FROM_FILE;然后,对于权重矩阵文件参数,提供所创建的 .swm 文件的完整路径。
ESRI 数据和地图(对于 ArcGIS 用户是免费的)包含 StreetMap 数据,该数据包含以 SDC 格式预构建的网络数据集。此数据集的 coverage 是美国和加拿大。可通过生成网络空间权重工具直接使用这些网络数据集。
如果没有适用于分析的空间关系的概念化参数的选项,您可以按照要素与要素之间的关系创建一个 ASCII 文本文件或表,然后使用文本文件或表构建空间权重矩阵文件。还可以编辑空间权重矩阵文件。
选择固定距离范围值
将所选的固定距离范围视为临时停留在每个要素上面的移动窗口,并在其邻域环境内查看该要素。以下几个原则可帮助您为分析确定适当的距离范围:
- 根据您所了解的空间过程(支持正在研究的现象的聚类)的地理范围来选择距离。通常,您不知道这方面的内容,但如果知道,应使用您掌握的知识选择距离值。例如,假设您知道上下班路程的平均通勤距离是 15 英里。使用 15 英里作为距离范围是研究通勤数据的一个较好策略。
- 使用足够大的距离范围确保所有要素都至少具有一个相邻要素。特别是当输入数据偏斜(将数据绘制为直方图时无法创建一个良好的钟形曲线)时,您会希望确保距离范围既不过小(大多数要素只有一个或两个相邻要素)也不过大(几个要素将其他所有要素作为相邻要素包括在内),因为过小或过大会使得到的 z 得分不够可靠。只要距离范围足够确保每个要素具有数个相邻要素(大约 8 个),则 z 得分是可靠的(即使存在偏斜数据)。
- 使用可反映最大空间自相关的距离范围。当看到地表上的空间聚类时,您将看到正在进行的基础空间处理。显示最大聚类的距离范围(通过空间自相关(Global Moran's I) 或多距离空间聚类分析(Ripley's k 函数)工具测量)是这些空间过程最“活跃”或最显著处的距离。在倍数距离(0.5 英里、1.0 英里、1.5 英里等)下运行“空间自相关”工具并注意哪里产生的 z 得分看起来像高峰。使用与分析的峰值相关的距离。或者,如果要处理事件数据,针对一系列距离对未聚合事件运行“多距离空间聚类分析(Ripley's k 函数)”,并标识出观察到的 K 值峰值和期望的 K 值峰值之间的差异(DiffK 字段)。使用与分析的最大差异相关的距离。注: 应使用与地理处理环境输出坐标系指定的单位输入距离值。
- 每个峰值都表示进行空间聚类过程显著的位置的距离。多个峰值是很常见的。与较大距离相关的峰值通常反映广泛的趋势(例如,广泛的东西趋势,其中西部是大热点,而东部则是大冷点);您通常会对与较小距离相关的峰值最感兴趣。
- 不显著的峰值通常意味着在各种空间比例有很多不同的空间过程在进行。您可能希望寻找其他条件以确定对分析使用哪个固定距离(可能是用于修复的最有效距离)。
- 如果 z 得分未出现峰值(也就是说它只是持续增加)并且您正在使用聚合数据(例如县),通常意味着聚合方案过于粗略;运行感兴趣的空间过程时所处的比例小于聚合单位的比例。如果可以移动到较小的分析比例(例如从县移动到普查区域),这样可能有助于查找峰值距离。
- 不要总认为只有一个正确的距离范围。实际情况永远不会那么简单。很可能有多个/交互的空间过程推动了观察到的聚类。与其认为您需要一个距离范围,不如将模式分析工具作为在多种空间比例下浏览空间关系的有效方法。需要考虑到更改比例(更改距离范围值)时可能将会面对其他问题。假设要查看收入数据。使用小距离范围,您可以检查街区的收入模式,中比例距离可能反映社区或城市收入模式,而最大的距离范围将显示广泛的地方性的收入模式。
距离法
“空间统计”工具箱中的很多工具都在计算中使用距离。使用这些工具时您可以应用欧氏距离或曼哈顿距离。
- 欧氏距离按以下公式计算
D = sq root [(x1–x2)**2.0 + (y1–y2)**2.0]
其中 (x1,y1) 是点 A 的坐标,(x2,y2) 是点 B 的坐标,D 是点 A 和点 B 之间的直线距离。
- 曼哈顿距离按以下公式计算
D = abs(x1–x2) + abs(y1–y2)
其中 (x1,y1) 是点 A 的坐标,(x2,y2) 是点 B 的坐标,D 是点 A 和点 B 之间垂直之差与水平之差的和。如果限制为仅南北行驶和东西行驶,则该距离是您必须行驶的距离。当只能在某一街道网络中行驶并且实际的街道网络行驶成本不可用时,该方法通常比欧氏距离方法更合适。
自然电位(指定区域内权重的字段)
“空间统计”工具箱中的数个工具都允许您提供一个字段,表示要用于自然电位的权重。自然电位是要素和其自身之间的距离或权重。通常情况下,此权重为零,但在某些情况下,您可能要为每个要素指定其他固定值或不同的值。例如,如果基于各个人口普查区域之内和之间行驶的距离来执行空间关系的概念化,您可能会决定根据面大小对自然电位进行建模以反映区域内的平均行程成本:
dii = 0.5*[(Ai / π)**0.5]
其中 dii 是与面要素i 的区域内行程相关的行程成本,而 Ai 是与面要素i 相关的面积。
标准化
当要素的分布由于采样设计或施加的聚合方案而可能偏离时,建议使用行标准化。选择行标准化后,每个权重都会除以行的和(所有相邻要素的权重和)。行标准化的权重通常与固定距离邻域结合使用,并且几乎总是用于基于面邻接的邻域。这样可减少因为要素具有不同数量的相邻要素而产生的偏离。行标准化将换算所有权重,使它们在 0 和 1 之间,从而创建相对(而不是绝对)权重方案。每当要处理表示行政边界的面要素时,您都可能会希望选择“行标准化”选项。
距离范围或距离阈值
使用距离范围或距离阈值可设置大多数空间关系的概念化(例如,反距离、固定距离范围)的分析比例。它是一个表示中断距离的正数值。将在对目标要素的分析中忽略该要素指定中断之外的要素。但是,使用“无差别的区域”时,指定距离之外的要素的影响会随邻近程度的减小而变弱,而距离阈值之内的影响则视为是相等的。
选择合适的距离十分重要。某些空间统计要求每个要素至少具有一个相邻要素才能保证分析的可靠性。如果为距离范围或距离阈值设置的值过小(以致某些要素没有相邻要素),会弹出一条警告消息,建议您使用一个更大的距离值重新尝试。计算近邻点距离工具将针对指定数目的近邻计算最小距离、平均距离和最大距离,并且帮助您确定可用于分析的适当距离范围值。有关附加原则,另请参阅选择固定距离范围值。
当未指定任何值时,将计算默认阈值距离。下表说明了空间关系的概念化参数的不同选项对于三种可能的输入类型(负值无效)的行为方式。
反距离、反距离平方 |
固定距离范围、无差别的区域 |
面邻接、Delaunay 三角测量、K 最近邻 | |
0 |
未应用任何阈值或中断;每个要素都是其他任一要素的相邻要素。 |
无效。将生成运行时错误。 |
忽略。 |
空 |
将计算默认距离。该默认距离将是确保每个要素至少具有一个近邻的最小距离。 |
将计算默认距离。该默认距离将是确保每个要素至少具有一个近邻的最小距离。 |
忽略。 |
正数 |
指定的非零正值将用作中断距离;只有当要素间的距离小于此值彼此才存在相邻关系。 |
对于“固定距离范围”,只有彼此间距离处于此指定中断范围内的要素才是相邻要素。对于“无差别的区域”,位于彼此的指定中断范围内的要素是相邻要素;位于彼此中断之外的要素也是相邻要素,但随着距离的增加,分配到的权重/影响将越来越小。 |
忽略。 |
相邻要素的数目
指定一个正整数以表示在分析中,每个目标要素要包含的相邻要素的数量。如果所选空间关系的概念化的值为 K 最近邻,则会在最近的 K 个要素(其中 K 是指定的相邻要素的数目)环境内计算每个目标要素。对于“反距离”或“固定距离范围”,为相邻点的数目参数指定一个值可确保每个要素都具有最少数量的 K 个近邻。对于“面邻接”,为相邻点的数目指定的值只适用于岛屿面:分析中,到每个目标岛屿面的 K 个最近面将被视作相邻面。
权重矩阵文件
多个工具允许您通过提供空间权重矩阵文件的路径来定义各个要素之间的空间关系。空间权重是反映数据集中每个要素和其他任何一个要素之间的距离、时间或其他成本的数字。空间权重矩阵文件可通过生成空间权重矩阵工具或生成网络空间权重工具进行创建,也可以是简单的 ASCII 文件。
当空间权重矩阵文件是简单的 ASCII 文本文件时,第一行应该是唯一 ID 字段的名称。这使您可以在生成该文件时灵活地使用数据集中的任意数字字段作为 ID;但是,ID 字段类型必须是整型并且每个要素都必须具有唯一值。第一行之后,该空间权重文件应被格式化为三列:
- 起始要素 ID
- 终止要素 ID
- 权重
例如,假设有三个加油站。要用作 ID 字段的字段称为 StationID,要素 ID 为 1、2 和 3。您想要使用行程时间(以分钟为单位)对这三个加油站之间的空间关系进行建模。您可以创建如下所示的 ASCII 文件:
StationID 1 1 0 1 2 1/10 1 3 1/7 2 1 1/10 2 3 1/20 3 1 1/6 3 2 1/15 3 3 0
通常,权重在表示距离或时间时会被取倒数(例如,当距离为 10 英里或 10 分钟时,权重为 1/10),因此较近的要素比较远的要素具有更大的权重。从上述权重中注意到加油站 1 距加油站 2 为 10 分钟。还可以看出本示例中的行程时间不是对称的(从加油站 1 行驶到加油站 3 为 7 分钟,但从加油站 3 行驶到加油站 1 只有 6 分钟)。请注意,加油站 1 与其自身之间的权重为 0,并且没有加油站 2 到其自身的条目。缺失的条目都被假定具有权重 0。
为空间权重矩阵文件输入值顶多算是一项单调乏味的工作,即使对于小数据集也是如此。最好使用生成空间权重矩阵工具或编写一个快速的 Python 脚本来为您执行此任务。
空间权重矩阵文件 (.swm)
生成空间权重矩阵或生成网络空间权重工具将创建二进制空间权重矩阵文件 (.swm),该文件根据指定的参数定义数据集中所有要素之间的空间关系。
如果有一个用于定义要素类中各个要素之间空间关系的表,则使用生成空间权重矩阵工具可将表转换为空间权重矩阵文件 (.swm)。该表将需要以下字段:
字段名 |
描述 |
---|---|
<唯一 ID 字段名> |
存在于输入要素类中的一个整型字段,带有每个要素的唯一 ID。这是起始要素 ID。 |
NID |
一个包含相邻要素 ID 的整型字段。这是终止要素 ID。 |
WEIGHT |
这是量化起始要素和终止要素之间空间关系的数字权重。较大的值表示两个要素之间具有较大的权重和较强的影响或交互。 |