解释 OLS 结果

“OLS 回归”工具生成的输出包括以下内容:

下文中将使用一系列运行 OLS 回归和解释 OLS 结果的步骤对以上每项输出进行说明。

(A) 如有必要,打开结果窗口。然后,运行 OLS 工具:

OLS 工具
普通最小二乘法工具对话框

将需要提供带有唯一 ID 字段输入要素类、要模拟/解释/预测的因变量以及所有解释变量。还需要提供输出要素类的路径名称,还可选择提供系数输出表诊断输出表的路径名称。

主输出为写入结果窗口的 OLS 汇总报表。右键单击结果窗口中的消息条目并选择视图,将在消息对话框中显示 OLS 汇总报表。如果在前景中执行此工具,还将在进度对话框中显示汇总报表。

(B) 使用以下所述的带编号步骤检查统计汇总报表:

OLS 报表
OLS 统计报表的组成部分

分解统计报表

  1. 评估模型性能。R 平方的倍数和校正 R 平方值都可以用来测量模型性能。可能值的范围从 0.0 到 1.0。由于“校正 R 平方”值与数据相关,更能准确地测量出模型性能,能够反映模型的复杂性(变量数),因此“校正 R 平方”值始终要比“R 平方的倍数”值略小。为模型额外添加一个解释变量可能会增大“R 平方的倍数”值,但可能会减小“校正的 R 平方”值。假设正在创建一个入室盗窃(与每个人口普查区块相关的入室盗窃数量为因变量y)的回归模型。如果“校正 R 平方”值为 0.84,则表示该模型(使用线性回归建模的解释变量)可解释因变量中大约 84% 的变化。换句话说,该模型讲述了大约 84% 的入室盗窃“故事”。
    模型性能
    使用 R 平方值量化模型性能
  2. 评估模型中的每一个解释变量:系数、概率、稳健概率和方差膨胀因子 (VIF)。每个解释变量的系数既反映它与因变量之间关系的强度,也反映它与应变量之间关系的类型。当与系数关联的符号为负号时,该系数与因变量为负关系。例如,距离城镇中心的距离越大,入室盗窃的数量就越少。当与系数关联的符号为正号时,该系数与因变量为正关系。例如,人口越多,入室盗窃的数量就越多。系数的单位与其关联的解释变量的单位相同。例如,与某一表示人口数的解释变量关联的系数为 0.005,可解释为 0.005 个人。系数反映了相对于与因变量关联的解释变量的每 1 个单位变化因变量所发生的预期变化,并保持所有其他解释变量不变。例如,人口普查区块每增加一人,入室盗窃系数就会增加 0.005,并保持所有其他解释变量不变。使用 T 测试来评估某个解释变量是否具有统计学上的显著性。零假设是指所有的意图和目的的系数值为零,因此零假设对于模型“没有”帮助。当概率或稳健概率(p 值)很小时,系数实际为零的几率也会很小。如果 Koenker 测试(见下图)具有统计学上的显著性,应使用稳健概率来评估解释变量的统计学显著性。对于具有统计学上显著性的概率,其旁边带有一个星号 (*)。如果理论/常识支持某解释变量(与统计学上显著的系数相关)与因变量的有效关系,关系模型主要为线性模型,且该变量对模型中所有其他解释变量而言不是冗余变量,则该变量对回归模型而言是很重要的。VIF 用于测量解释变量中的冗余。一般来说,与大于 7.5 的 VIF 值关联的解释变量应逐一从回归模型中移除。例如,如果某回归模型中带有人口变量(人数)和就业变量(就业人数),这些变量很可能与较大的 VIF 值关联,而这些 VIF 值表示这些变量讲述的是同一个“故事”,因此应将人口变量或就业变量从该模型中移除。
    解释变量分析
    评估哪一个变量具有统计学上的显著性
  3. 评估模型是否具有显著性。联合 F 统计量联合卡方统计量均用于测量整个模型的统计学显著性。只有在 Koenker (BP) 统计量(见下图)不具有统计学上的显著性时,“联合 F 统计量”才可信。如果 Koenker (BP) 统计量具有显著性,应参考“联合卡方统计量”来确定整个模型的显著性。这两种测试的零假设均为模型中的解释变量“不”起作用。对于大小为 95% 的置信度,p 值(概率)小于 0.05 表示模型具有统计学上的显著性。
    模型整体性能
    评估回归模型的整体统计学显著性。
  4. 评估稳定性。Koenker (BP) 统计量(Koenker 的标准化 Breusch-Pagan 统计量)是一种测试,用于确定模型的解释变量是否在地理空间和数据空间中都与因变量具有一致的关系。如果模型在地理空间中一致,由解释变量表示的空间进程在研究区域(进程稳定)各位置处的行为也将一致。如果模型在数据空间中一致,则预测值与每个解释变量之间关系的变化不会随解释变量量值(模型没有异方差性)的变化而变化。假设要对犯罪情况进行预测,其中一个解释变量为收入。如果对收入中位值小的位置的预测比对收入中位值大的位置的预测更准确,则模型的异方差性就会出现问题。该测试的零假设为所测试的模型稳定。对于大小为 95% 的置信度,p 值(概率)小于 0.05 表示模型具有统计学上的显著异方差性和/或不稳定性。如果该测试的结果具有统计学上的显著性,需参考稳健系数标准差和概率来评估每个解释变量的效果。具有统计学上显著不稳定性的回归模型通常很适合进行地理加权回归 (GWR) 分析。
    评估稳定性和异方差性。
    评估稳定性:如果 Koenker 测试具有统计学上的显著性 (*),应参考稳健概率来确定解释变量系数是否具有显著性。
  5. 评估模型偏差。Jarque-Bera统计量用于指示残差(已观测/已知的因变量值减去预测/估计值)是否呈正态分布。该测试的零假设为残差呈正态分布,因此,如果为这些残差建立直方图,这些残差的分布将与典型钟形曲线或高斯分布相似。当该测试的 p 值(概率)较小(例如,对于大小为 95% 的置信度,其值小于 0.05)时,回归不会呈正态分布,并指示您的模型有偏差。如果残差还存在统计学上显著的空间自相关(请参阅下文),则偏差可能是模型指定错误(该模型的某个关键变量缺失)的结果。从错误指定的 OLS 模型得到的结果是不可信的。如果尝试构建非线性关系模型、数据的某些异常值存在影响或者存在很强的异方差性(请参阅上文),也可进行统计学上显著的 Jarque-Bera 测试。
    Jarque-Bera 结果
    评估模型偏差。
  6. 评估残差空间自相关。始终对回归残差运行空间自相关(Moran's I) 工具可确保回归残差在空间上随机分布。高残差和/或低残差(模型偏高预计值和偏低预计值)在统计学上的显著聚类表明模型(指定错误)中的某个关键变量缺失了。当错误指定了模型时,OLS 结果不可信。
    评估回归残差的空间分布。
    使用空间自相关工具可以确保模型残差不是空间自相关的。
  7. 最后,请查看回归分析基础知识文档中标题为回归模型如何失效部分,以便检查 OLS 回归模型是否指定正确。另请注意,在 OLS 统计报告的结尾有一部分的内容名为“解释注意事项”,可以帮助您记住每个统计测试的作用。
    解释注意事项
    OLS 报告中包含的“注意事项”可帮助您解释诊断输出。

(C) 检查输出要素类残差。正确指定的回归模型的偏高预计值和偏低预计值将会随机分布。偏高预计值和/或偏低预计值的聚类表明至少丢失了一个关键解释变量。检查模型残差的分布格局可了解是否可从这些分布格局中确定可能丢失的那些变量。有时,对回归残差执行热点分析有助于您查看偏高预计值和偏低预计值中的更广分布格局。

映射的残差
OLS 输出:映射的残差

(D) 查看系数和诊断表。创建系数和诊断表为可选操作。当您正寻找有效模型时,可能会选择不创建这些表格。模型构建过程会循环进行,在确定一些较好的模型之前,您可能会尝试构建众多不同的模型(不同的解释变量)。您可以使用 OLS 统计报告中的修正的 Akaike 信息准则 (AICc) 来比较不同的模型。AICc 值越小,模型就越好(换句话说,考虑到模型的复杂程度,具有越小 AICc 值的模型会更符合已观测的数据)。您应始终为您最终的 OLS 模型创建系数和诊断表,以捕获该 OLS 报表最为重要的元素,包括模型(具有系数、标准差、概率以及每一个诊断测试的结果)中使用的解释变量列表。该诊断报表中包含对每个测试的描述,以及一些关于如何解释测试的结果的原则。

系数表
系数表中包含计算的系数、标准差和变量概率。
OLS 诊断
诊断报表中包含用于解释模型诊断测试结果的注意事项。
AICc 输出
可使用 AICc 值来比较各个回归模型。

其他资源

有多种优质资源可帮助您了解有关 OLS 回归的详细信息。 可从阅读回归分析基础文档和/或观看一小时的免费 ESRI 虚拟校园回归分析基础 Web 研讨会开始。 然后,通读回归分析教程


7/10/2012