直方图
“直方图”工具提供了数据的一元(一个变量)描述。此工具对话框用于显示感兴趣数据集的频率分布并计算汇总统计数据。
频率分布
频率分布是用条形图表示的,该图显示了观察值位于特定区间或组之内的频率。可指定在直方图中使用的等宽类数目。各组中数据的相对比例以各条块的高度表示。例如,以下直方图显示了数据集的频率分布(10 个类)。
汇总统计数据
分布的重要功能可通过描述其位置、离散度和形状的统计数据进行概括。
位置的测量值
位置的测量值提供了一个分布的中心和其他部分所处位置的概念。
- 平均值即为数据的算数平均值。平均值提供分布中心的测量值。
- 中间值与累积比例 0.5 对应。如果数据以升序排列,50% 的值位于中间值之下,50% 的值位于中间值之上。中间值提供了分布中心的另一个测量值。
- 第一和第三分位数分别与累积比例 0.25 和 0.75 对应。如果数据以升序排列,则 25% 的值位于第一分位数之下,25% 的值位于第三分位数之上。第一和第三分位数是分位数的特殊情况。分位数的计算方式如下:
quantile = (i - 0.5) / N
其中 i 是第 i 个有序数值。
离散度的测量值
平均值周围点的离散度是所显示频率分布的另一特征。
- 数据的方差是所有值与平均值之间的平均平方差值。由于涉及到平方差,计算得到的方差通常对过高值或过低值很敏感。方差的计算方法为:将值与平均值的平方差求和,然后除以 (N-1)。
- 标准差为方差的平方根,它描述了数据在平均值周围的分散程度。方差和标准差越小,测量值聚类相对于平均值就越紧密。
下图显示了两个具有不同标准差的分布。黑线表示的频率分布比红线表示的频率分布波动性更大(离散程度更大)。黑线表示的频率分布比红线表示的频率分布的方差和标准差都大。
形状测量值
频率分布的形状也是其特征之一。
偏度系数是分布对称度的测量值。对于对称的分布,偏度系数为零。如果分布具有较长的大值右尾部,则为正偏分布;如果分布具有较长的小值左尾部,则为负偏分布。对于正偏分布,平均值大于中间值;对负偏分布,平均值小于中间值。下图显示了一个正偏分布。
峰度取决于分布尾部的大小,提供分布产生异常值可能性的衡量指标。正态分布的峰度等于三。具有较厚尾部的分布被称为高峰态,其峰度大于三。具有较薄尾部的分布被称为低峰态,其峰度值小于三。下图中,正态分布以红色表示,高峰态(厚尾部)分布以黑色表示。
示例
使用“直方图”工具,可通过直接观察来检查分布形状。可通过查看平均和中间值统计数据确定分布的中心位置。请注意,以下图形中的分布为钟形曲线,由于平均值和中值非常接近,分布接近于正态分布。还可以高亮显示直方图尾部的极值,并查看如何在空间上于显示的地图中放置这些值。
如果数据严重偏斜,可在数据上测试变换效果。此图显示了应用变换之前的偏斜分布。
将对数变换应用于偏斜数据,这种情况下,此变换使分布接近于正态分布。
有关“直方图”工具可用变换的详细信息,请参阅 Box-Cox 变换、反正弦变换和对数变换。