回归分析基础知识
空间统计工具箱提供了用于量化空间模式的有效工具。例如,使用热点分析工具,可以弄清如下问题:
- 美国是否有持续发生年轻人早逝的地方?
- 哪里为犯罪、911 紧急呼叫(请参阅下图)或火灾的高发地点?
- 城市中哪里的交通事故发生率比预期的要高?
上面的每一个问题都询问了“哪里?”对于上述分析类型,自然而然会问及“为什么?”
- 为什么美国会存在持续发生年轻人早逝的地方?是什么导致了这种情况?
- 我们能否对犯罪、911 呼叫或火灾频发地区的特征进行建模,以帮助减少这些事件的发生?
- 导致交通事故发生率比预期的要高的因素有哪些?有没有相关政策或措施来减少整个城市和/或特定事故高发区域内的交通事故?
空间关系建模工具集中的工具可帮助您回答第二组有关“为什么”的问题。这些工具包括普通最小二乘法 (OLS) 回归和地理加权回归。
空间关系
通过回归分析,您可以对空间关系进行建模、检查和探究;回归分析还可帮助您解释所观测到的空间模式背后的诸多因素。您可能想知道为什么在美国的有些地区会持续发生年轻人早逝或者糖尿病的发病率比预期要高。不过,通过对空间关系进行建模,您也可使用回归分析对这些现象加以预测。例如,通过对影响大学毕业率的因素进行建模,您可以对近期的劳动力技能和资源进行预测。在因监测站数量不足而无法进行充分插值的情况下(例如:沿山脊地区和山谷内,雨量计通常会短缺),您也可以使用回归法来预测这些地区的降雨量或空气质量。
在所有的回归方法中,OLS 最为著名。而且,它也是所有空间回归分析的正确起点。它可为您尝试了解或预测(早逝/降雨)的变量或过程提供一个全局模型;而且,它可创建一个回归方程来表示该过程。地理加权回归 (GWR) 是若干空间回归方法中的一种,被越来越多地用于地理及其他学科。通过对数据集中的各要素拟合回归方程,GWR 为您要尝试了解/预测的变量或过程提供了一个局部模型。若使用得当,这些方法可提供强大且可靠的统计数据,以对线性关系进行检查和估计。
线性关系或正或负。如,您发现随着白天气温的升高,搜索与营救事件的数量也随之增加,则该关系被视为正向;即存在正相关性。表述此正向关系的另一种方法是随着白天气温的降低,搜索与营救事件随之减少。相反,如果发现随着某地区巡逻警察数量的增加,犯罪事件的数量随之下降,则该关系被视为负向。此负向关系的另外一种表述形式为:随着巡逻警察数量的降低,犯罪事件的数量随之增加。下图显示了两个变量之间存在正、负关系以及无关系的情况:
相关性分析及上面所绘制的图形可以检验两变量之间关系的强度。另一方面,回归分析可以显著地表现:一个或多个变量影响另一变量中发生正变化或负变化的几率。
回归分析应用
回归分析具有多种不同的用途:
- 对中学留校率建模以更好地了解有助于孩子们继续留在学校里读书的各种因素。
- 构建交通事故与速度、路况、天气等因素之间的函数,以便为警方提供旨在降低交通事故率的各种信息。
- 构建因火灾造成的财产损失与消防部门的介入程度、响应时间或财产价值等变量之间的函数。如果发现响应时间为关键因素,则表示您可能需要建造更多的消防站。如果发现介入程度为关键因素,则表示您可能需要增加设备和消防队员的数量。
使用回归分析有三个主要原因:
- 对某一现象建模,以更好地了解该现象并有可能基于对该现象的了解来影响政策的制定以及决定采取何种相应措施。基本目标是测量一个或多个变量的变化对另一变量变化的影响程度。示例:了解某些特定濒危鸟类的主要栖息地特征(例如:降水、食物源、植被、天敌),以协助通过立法来保护该物种。
- 对某种现象建模以预测其他地点或其他时间的数值。基本目标是构建一个持续、准确的预测模型。示例:如果已知人口增长情况和典型的天气状况,那么明年的用电量将会是多少?
- 您还可以使用回归分析来深入探索某些假设情况。假设您正在对住宅区的犯罪活动进行建模,以更好地了解犯罪活动并希望实施可能阻止犯罪活动的策略。开始分析时,您很可能有很多问题或想要检验的假设情况:
- “破窗理论”表明公共财产的破坏(涂鸦、被毁坏的建筑物等)可招致其他犯罪行为。破坏财产行为与入室盗窃之间是否存在正关系?
- 非法使用毒品与盗窃行为之间存在某种关系吗(吸毒成瘾的人有可能通过偷取财物来维持他们吸毒的习惯吗)?
- 窃贼恃强凌弱吗?老人或女性户主家庭居多的住宅区内发生盗窃的可能性更高吗?
- 是住在富有的小区内更容易遭受盗窃,还是住在贫穷的小区内更容易遭受盗窃?
回归分析术语与概念
如果不熟悉回归分析统计数据所特有的一些术语和基本概念,不可能对回归分析进行详细论述:
回归方程:这是一个可利用一个或多个解释变量对因变量进行最佳预测的数学公式。回归方程中的因变量总是标记为 y,自变量或解释变量总是标记为 X,这种表示方式对于那些将 x 和 y 视为坐标的地理学界的工作人员来说可能有些不便。每个自变量都与一个描述该变量与因变量之间关系强度和符号的回归系数相关联。回归方程的可能形式如下(其中,y 是因变量,X 是解释变量,β 是回归系数;将在下面对回归方程中各组成部分做进一步的说明):
- 因变量 (y):该变量表示您正尝试预测或了解的过程(如,入室盗窃数、止赎数、降雨量)。在回归方程中,因变量位于等号的左侧。尽管可使用回归法来预测因变量,但必须先给定一组已知的 y 值,然后可利用这些值来构建(或定标)回归模型。这些已知的 y 值通常称为观测值。
- 自变量/解释变量 (X):这些变量用于对因变量的值进行建模或预测。在回归方程中,自变量位于等号的右侧,通常称为解释变量。因变量是解释变量的函数。例如,如果您打算预测商店每年的采购量,那么模型中可能需要使用一些解释变量来表示潜在客户的数量、与竞争对手之间的距离、店面是否显眼以及当地的消费模式。
- 回归系数 (β):将使用回归工具来计算系数。回归系数是一些数值,表示解释变量与因变量之间的关系强度和类型,而且,每个解释变量都有一个对应的回归系数。假设您将火灾发生频率构建为一个太阳辐射、植被、降雨量和坡向的函数。您可能会预计火灾的发生频率与太阳辐射之间存在正向关系(换言之,太阳辐射越强,发生火灾的频率就越高)。当关系为正时,关联系数的符号也为正。同时,您可能预计火灾发生频率与降雨量之间存在负向关系(换言之,降雨量较大的地方发生火灾的频率较低)。当关系为负时,关联系数的符号也为负。如果关系很强,则系数也相对较大(相对于它所关联的解释变量的单位)。如果关系较弱,则关联系数接近于零;β0 为回归截距。它表示所有自变量(解释变量)均为零时因变量的预期值。
P 值:大多数回归方法都会进行统计检验以针对每个自变量的关联系数计算出一个称为 p 的概率值。此统计检验的零假设为:系数与零之间无显著差异(换言之,在所有情况下,该系数均为零,因此,关联的解释变量对于模型不起任何作用)。p 值小,则表明概率小,而且还表明该系数对于值显著异于零的模型很重要(也就是说,如果 p 值小,则表明系数不为零)。您可能会说:对于 p 值为 0.01 的系数在 99% 的置信度上具有统计显著性;其关联变量是一个有效的预测因子。系数接近零的变量对于因变量的预测或建模没有帮助;通常都会将这些变量直接从回归方程中去掉(除非存在强有力的理论依据要将其保留)。
R2/R 平方:R 平方的倍数和校正 R 平方都是从回归方程得到的统计数据,用于量化模型的性能。R 平方的取值范围为 0% 到 100%。如果模型与因变量的观测值完全拟合,则 R 平方为 1.0(毫无疑问,这不正确;可能使用了 y 的某种形式预测了 y 值)。很有可能会出现像 0.49 这样的 R 平方值,您可能会解释说“该模型反映了因变量中 49% 的变化”。要想理解 R 平方值的情况,请创建一张显示有 y 的估计值和观测值的条形图,观测值也按照估计值进行排序。请注意存在多少重合的情况。该图直观地表明了模型的预测值反映因变量观测值变化的能力。查看图示。“校正 R 平方”值通常略低于“R 平方的倍数”值,这是因为它与数据相关,因此能够反映出模型的复杂性(变量数)。所以,“校正 R 平方”值可以更准确地量测模型的性能。
残差:这些是因变量无法解释的部分,该部分在回归方程中被表示为随机误差项 ε。查看图示。将使用因变量的已知值来构建和校准回归模型。通过因变量 (y) 的已知值和所有解释变量 (X) 的已知值,回归工具可以构造出能够对那些已知的 y 值作出最佳预测的方程。不过,预测值很少会和观测值完全匹配。y 的观测值与预测值之差称为残差。回归方程中的残差可用于确定模型的拟合程度。残差较大表明模型拟合效果较差。
回归模型的构建是一个迭代过程,在该过程中,需要找出有效的自变量来解释要建模或了解的因变量,且需要运行回归工具来确定哪些变量为有效的预测因子,然后需要反复执行变量移除和/或添加操作,直到找出最佳的回归模型。虽然构建模型的过程通常是探索性的,但它绝不是“盲目的搜查”。您应通过了解相关理论、请教该领域内的专家并凭借一些常识性信息来确定可能的解释变量。在分析之前,您应该清楚每个可能的解释变量和因变量之间的关系并能够对其正确与否作出判断,而且,对于这些关系不匹配的模型,您应该表示质疑。
如果之前未使用过回归分析,您最好先下载回归分析教程,然后执行步骤 1 到 5。
回归分析的问题
OLS 回归是一种简单的方法,其理论发展得较为完善,且可通过很多有效的诊断方法来帮助您进行插值并解答您的疑难问题。不过,只有当数据和回归模型满足该方法固有需要的所有假定条件时,OLS 才是有效且可靠的(请参阅下表)。空间数据经常与 OLS 回归的假定条件和要求不符,因此使用回归工具和相应的诊断工具就显得尤为重要,这些工具能够根据数据的结构和正在实施的模型来判断回归法是否适用于您要进行的分析。
回归模型失效的形式
很多回归模型中常见的严重冲突是设定误差。设定误差模型是一个不完整的模型,它丢失了重要的解释变量,因此设定误差模型无法充分表示所要建模或预测的对象(因变量 y)。换言之,回归模型不能说明所有的问题。只要回归残差中存在统计显著的空间自相关关系,或者,换言之,只要模型的偏高预计值和偏低预计值(残差)倾向于在空间上发生聚类,以至于偏高预计值在研究区域的某些部分中发生聚类而偏低预计值在其他部分中发生聚类,就可以视为发生了设定误差。从映射回归残差或与地理加权回归分析关联的系数中可以看出丢失了哪些内容。还可通过对回归残差运行热点分析来找出不同的空间组织,这些空间组织可使用区域变量利用 OLS 进行建模,也可使用地理加权回归法对其进行修复。假设对回归残差进行映射时,如果模型在山区总是获得偏高预计值、在山谷总是获得偏低预计值,那么最有可能的原因就是模型缺少高程变量。不过,有时会出现以下情况:缺少的变量因过于复杂而导致无法建模、无法量化以及难以测量。在这些情况下,您可以采用 GWR 或其他空间回归方法来建立较好的模型。
下表列出了回归模型的常见问题,以及 ArcGIS 中提供的用于解决这些问题的工具:
遗漏了解释变量(设定误差)。 |
如果回归模型中丢失了关键的解释变量,其系数和相应的关联 P 值将不可信。 | |
非线性关系。查看图示。 |
OLS 和 GWR 都是线性方法。如果任一解释变量与因变量之间的关系存在非线性关系,则所获得的模型质量不佳。 |
可通过创建散点图矩阵图来了解模型中所有变量之间的关系。请格外注意与因变量有关的关系。通常,可通过变换变量来修复曲线性。查看图示。也可使用非线性回归方法。 |
数据异常值。查看图示。 |
影响大的异常值可以使模型化的回归关系背离最佳拟合,从而使回归系数发生偏差。 |
可通过创建散点图矩阵和其他图(直方图)来检验数据的极值。如果异常值存在错误,请修正或移除异常值。如果异常值正确/有效,则不能/不应将其移除。在存在异常值和不存在异常值的情况下分别运行回归,看一看这两种情况对结果的影响程度。 |
不稳定性。您可能会发现,例如,一个输入变量在区域 A 中具有很强的解释能力,但在区域 B 中却不显著,甚至连符号也改变了。查看图示。 |
如果因变量与解释变量之间的关系在研究区域内不一致,将人为地扩大计算出的标准误差。 |
ArcGIS 中的 OLS 工具可自动检测与不稳定性(区域变化)相关的问题并计算稳健标准误差值。查看图示。当与 Koenker 测试关联的概率很小(例如 < 0.05)时,区域变化具有统计显著性,此时应参考稳健概率来确定解释变量是否具有统计显著性。通常,使用地理加权回归工具可改进模型的结果。 |
多重共线性。一个解释变量或多个解释变量的组合冗余。查看图示。 |
多重共线性可导致产生计数过度类型的偏差,模型将变得不稳定/不可靠。 |
ArcGIS 中的 OLS 工具可自动检查冗余。每个解释变量都将被给定一个计算出的 VIF 值。当这个值很大(例如 > 7.5)时,冗余便成为了问题,应该通过创建交互变量或增大采样大小来从模型中移除冲突变量或对其进行修改。查看图示。 |
残差的方差不一致。可能的原因是:对于较小的因变量值,模型的预测效果较好,但对于较大的因变量值,模型的预测值将变得不可靠。查看图示。 |
当模型不能很好地预测某些值时,结果将出现偏差。 |
ArcGIS 中的 OLS 工具可自动检测不一致的残差方差(称为异方差性)并计算该问题的稳健标准误差。当与 Koenker 测试关联的概率很小(例如 < 0.05)时,应参考稳健概率来确定解释变量是否具有统计显著性。查看图示。 |
空间自相关残差。查看图示。 |
当模型的偏低预计值/偏高预计值存在空间聚类时,会导致产生计数过度类型的偏差,并使得模型不可靠。 |
对残差运行空间自相关工具以确保残差不会出现统计显著的空间聚类。统计显著的空间自相关几乎总是因指定错误导致的(模型中缺少关键变量)。查看图示。 |
正态分布偏差。查看图示。 |
当回归模型残差不服从均值为零的正态分布时,与系数关联的 p 值将变得不可靠。 |
ArcGIS 中的 OLS 工具可自动检验残差是否服从正态分布。当 Jarque-Bera 统计量显著(例如 < 0.05)时,很可能错误指定了模型(模型中缺少关键变量)或某些正在对其建模的关系为非线性关系。检查输出残差图和 GWR 系数图来查看该练习是否表明分析中缺少关键变量。查看散点图矩阵图并寻找非线性关系。 |
对上面列出的问题逐一进行检验是很重要的。如果忽略了上述问题,所得结果可能是百分之百错误的(与实际结果完全相反)。
如果之前未使用过回归分析,您最好先下载并通读回归分析教程。
空间回归
空间数据具有两种属性,因此很难(但并非不可能)满足像 OLS 回归这样的传统(非空间)统计方法的假定条件和要求:
- 图形要素通常具有空间自相关;这意味着距离较近的要素往往比距离较远的要素更相似。对于传统的(非空间)回归方法,这会导致产生计数过度类型的偏差。
- 地理很重要,对于建模对象而言,其最重要的过程往往是不稳定的;在研究区域的不同位置,这些过程的表现形式也不尽相同。空间数据的这一特征可称为区域变化或不稳定性。
人们开发出了空间回归方法,用于稳健地管理空间数据的这两个特征,甚至可以合并空间数据的这些特性以提高对数据关系的建模能力。有些空间回归方法可以有效地处理第一个特征(空间自相关),而其他方法则可以有效地处理第二个特征(不稳定性)。目前,还不存在可以同时有效地处理这两个特征的空间回归方法。不过,对于正确指定的 GWR 模型,空间自相关通常不是问题。
空间自相关
传统统计工作者和空间统计工作者对于空间自相关的看法似乎存在着较大的差异。传统统计工作者认为空间自相关是个不好的特征,需要从数据中移除(例如,通过重新采样),因为空间自相关与很多传统(非空间)统计方法的基本假定条件相冲突。不过,对于地理学家或 GIS 分析师来说,空间自相关表明某些基础空间过程在发挥作用;空间自相关是数据不可分割的组成部分。移除空间还会将数据从其空间环境中移除;这就像听故事只听到一半。我们关注的重点是数据中明显的空间过程和空间关系,而这种空间过程和空间关系也是 GIS 用户对空间数据分析如此兴奋的原因之一。不过,为防止模型中出现计数过度类型的偏差,必须识别出可有效捕获因变量中固有空间结构的所有解释变量。如果不能识别出所有这些变量,那么,模型残差中将很有可能会出现统计显著的空间自相关。不幸的是,只有修复后,回归结果才可信。可使用空间自相关工具来检验回归残差中统计显著的空间自相关。
至少有三种方法可以处理回归模型残差中的空间自相关:
- 重新采样直到输入变量不再表现出统计显著的空间自相关。虽然这么做不能保证分析中不会出现空间自相关问题,但是,如果将空间自相关从因变量和解释变量中移除,则出现空间自相关问题的可能性将微乎其微。这就是传统统计工作者处理空间自相关的方法,只有当空间自相关是由数据冗余所导致的时(采样方案过于细致),该方法才适用。
- 使用空间过滤回归方法隔离每个输入变量的空间分量和非空间分量。空间从每个变量中移除后将被放回到回归模型中,用作表示空间效果/空间结构的新变量。目前,ArcGIS 未提供空间过滤回归方法。
- 使用空间计量经济学回归方法将空间自相关合并到回归模型中。在以后的版本中,空间计量经济学回归方法将被添加到 ArcGIS 中。
区域变化
像 OLS 回归这样的全局模型可以构造出最佳描述研究区域中整体数据关系的方程。如果这些关系在研究区域中是一致的,则 OLS 回归方程可以对这些关系进行很好的建模。不过,当这些关系在研究区域的不同位置具有不同的表现形式时,回归方程在很大程度上为现有关系混合的平均值;如果这些关系表示两个极值,那么全局平均值将不能为任何一个极值构建出很好的模型。当解释变量表现出不稳定的关系(区域变化)时,全局模型通常会失效,除非使用稳健的方法来计算回归结果。理想情况下,您将能够识别出可捕获因变量中固有的区域变化的所有解释变量。不过,如果您不能识别出所有这些空间变量,模型残差中将再次出现统计显著性的空间自相关,和/或低于期望的 R 平方值。不幸的是,只有修复后,回归结果才可信。
至少有四种方法可以处理 OLS 回归模型中的区域变化:
- 将变量包含到用来解释区域变化的模型中。例如,如果您发现模型在北方总是获得偏高预计值、在南方总是获得偏低预计值,请添加一个区域变量,对于北方要素,将该区域变量的值设为 1;对于南方要素,将该区域变量的值设为 0。
- 使用将区域变化合并到回归模型中的方法,如地理加权回归。
- 参考稳健回归标准误差和概率,以确定变量系数是否具有统计显著性。请参阅解释 OLS 回归结果。仍建议使用地理加权回归。
- 重新定义/缩小研究区域的范围,以使研究区域内的过程都是稳定的(因此这些过程不再表现出区域变化)。
有关使用回归工具的详细信息,请参阅以下内容: