最小二乗法(Ordinary Least Squares)ツールの結果の解析
[最小二乗法(Ordinary Least Squares)] ツール(以下、「OLS」)によって生成される出力には、次のものが含まれます。
- 出力フィーチャクラス
- 統計結果のメッセージ ウィンドウ レポート
- 説明変数の係数のテーブル(オプション)
- 回帰診断のテーブル(オプション)
これらの出力については、以下に示す、OLS ツールを実行し、OLS ツールの結果を解釈する手順において説明します。
(A)[結果] パネルを開いていない場合は開きます。次に、OLS ツールを実行します。
[個別値フィールド] を持つ、モデリング/説明/予測する [従属変数] を含んでいる [入力フィーチャクラス] とすべての [説明変数] を指定する必要があります。また、[出力フィーチャクラス] のパス名を指定する必要もあり、オプションで [係数出力テーブル] および [診断出力テーブル] のパス名を指定することもできます。
プライマリ出力は、[結果] パネルに書き出される OLS サマリ レポートです。[結果] パネルの [メッセージ] のエントリを右クリックし、[表示] をクリックすると、[メッセージ] ダイアログ ボックスに OLS サマリ レポートが表示されます。このツールをフォアグラウンドで実行すると、サマリ レポートは進捗状況ダイアログ ボックスにも表示されます。
(B)下記の手順に従って、統計レポートを調べます。
統計レポートの分析
- モデルのパフォーマンスを評価します。[Multiple R-Squared](R2)および [Adjusted R-Squared](補正 R2) の値は、モデルのパフォーマンスを計測するための基準です。有効な値の範囲は 0.0 ~ 1.0 です。[Adjusted R-Squared] の値は、データと関連付けられているためモデルの複雑さ(変数の数)を反映し、モデルのパフォーマンスを計測するためにはより正確な基準であるため、常に [Multiple R-Squared] の値よりも若干低い値になります。モデルに説明変数をさらに追加すると、通常、[Multiple R-Squared] の値は高くなりますが、[Adjusted R-Squared] の値は低くなる場合があります。空き巣の回帰モデルを作成しているとします(各国勢調査区域に関連付けられている空き巣の数を従属変数 y とします)。[Adjusted R-Squared] の値が [0.84] であれば、モデル(線形回帰を使用してモデリングされた説明変数)は従属変数の値変動の約 84% を説明できていることになります。つまり、このモデルは、発生した空き巣のおよそ 84% について物語っていることになります。
- モデル内の各説明変数を評価します。これらには、係数、確率またはロバスト確率、および VIF(Variance Inflation Factor: 分散拡大要因)があります。各説明変数の係数は、説明変数の従属変数に対するリレーションシップの強度とタイプの両方を反映します。係数に関連付けられている符号が負であれば、リレーションシップも負です(たとえば、都市中心部からの距離が遠ければ遠いほど、空き巣の数も少なくなるなど)。符号が正であれば、リレーションシップも正です(たとえば、人口が多ければ多いほど、空き巣の数も多くなるなど)。係数は、それに関連付けられている説明変数と同じ単位で示されます(0.005 の係数に人口数を表す変数が関連付けられている場合は、0.005 人として解釈できます)。係数は、関連付けられている説明変数の 1 単位の変化に対して予想される従属変数の変化を反映し、その他のすべての変数は一定に保たれます(たとえば、国勢調査区域の人口が 1 人増加するたびに空き巣の数が 0.005 件増加することが予想され、その他のすべての説明変数は一定に保たれるなど)。説明変数が統計的に有意であるかどうかを評価するためには、t 検定が使用されます。その帰無仮説は、係数が実質的には 0 であること(したがって、モデルにとって無意味であること)です。確率またはロバスト確率(p 値)が非常に小さければ、係数が実質的に 0 である可能性も低くなります。Koenker 検定(下記を参照)が統計的に有意である場合は、ロバスト確率を使用して説明変数の統計的な有意性を評価します。統計的に有意な確率には、その横にアスタリスク(*)が表示されています。統計的に有意な係数に関連付けられている説明変数は、従属変数に対して有効なリレーションシップを持っていることが理論上または常識的に推定される場合、モデリング対象のリレーションシップが主に線形である場合、および変数がモデルの他の説明変数と重複していない場合は、回帰モデルにとって重要です。VIF は、説明変数がどれほど重複しているかを計測するための基準です。一般的に、7.5 より大きい VIF 値に関連付けられている説明変数は、回帰モデルから(1 つずつ)削除する必要があります。たとえば、回帰モデルに人口変数(人口数)と雇用変数(被雇用者数)がある場合、これらは通常、大きい VIF 値に関連付けられており、これらの変数の両方が同じことを物語っているため、どちらかをモデルから削除する必要があります。
- モデルの有意性を評価します。[Joint F-Statistic](Joint F 統計) と [Joint Wald Statistic](Joint Wald 統計) は、全体的なモデルの統計的な有意性を計測するための基準です。[Joint F-Statistic] は、[Koenker (BP) Statistic](Koenker(BP)統計、下記を参照)が統計的に有意ではない場合にのみ信頼できます。[Koenker (BP) Statistic] が有意であれば、[Joint Wald Statistic] を確認して全体的なモデルの有意性を判断します。これらのテスト両方の帰無仮説は、モデルの説明変数が有効ではないということです。信頼度が 95% の場合に、p 値(確率)が 0.05 未満であれば、モデルが統計的に有意であることを示します。
- 定常性を評価します。[Koenker (BP) Statistic](Koenker のスチューデント化された Bruesch-Pagan 統計)は、モデルの説明変数が、地理空間とデータ空間の両方にある従属変数に対して一貫性のあるリレーションシップを持っているかどうかを判断するためのテストです。モデルが地理空間で一貫している場合、説明変数によって表される空間プロセスは、スタディ エリア全体で同じように動作します(プロセスは定常である)。モデルがデータ空間で一貫している場合、予測値と各説明変数のリレーションシップの値変動は、説明変数の値が変化しても変化しません(モデルに不均一分散がない)。犯罪を予測するとし、説明変数の 1 つが所得であるとします。予測が、中所得世帯の少ないロケーションよりも中所得世帯の多いロケーションのほうが正確である場合、モデルには不均一分散の問題があることになります。このテストの帰無仮説は、モデルが定常であることです。信頼度が 95% の場合に、p 値(確率)が 0.05 未満であれば、不均一分散または非定常性が統計的に有意であることを示します。このテストの結果が統計的に有意である場合は、ロバスト係数標準誤差および確率を確認して、各説明変数の有効性を評価します。通常、統計的に有意な非定常性がある回帰モデルは、[地理空間加重回帰分析(Geographically Weighted Regression)](GWR)ツールの分析に適切な候補です。
- モデルの偏りを評価します。[Jarque-Bera Statistic](Jarque-Bera 統計) の値は、残差(従属変数の観測値または既知の値から予測値または推定値を減算したもの)が正規分布しているかどうかを示します。このテストの帰無仮説は、残差が正規分布していることです。したがって、これらの残差のヒストグラムを作成すると、典型的な釣鐘曲線(ガウス分布)に似た形状が示されます。このテストの p 値(確率)が小さい場合(たとえば、信頼度が 95% で、0.05 未満であるなど)、残差は正規分布せず、モデルに偏りがあることを示します。残差(下記を参照)に統計的に有意な空間的自己相関がある場合、その偏りは、モデルが正しく指定されていない(主要な変数がモデルにない)ことの結果であることがあります。正しく指定されていない OLS モデルの結果は信頼できません。非線形リレーションシップをモデル化しようとしている場合や影響力のある外れ値がデータに含まれている場合、または高レベルの不均一分散(上記を参照)が存在する場合は、統計的に有意な Jarque-Bera 検定が実行されることもあります。
- 残差の空間的自己相関を評価します。常に、[空間的自己相関分析(Spatial Autocorrelation(Morans I))] ツールを回帰残差で実行して、それらが空間的にランダムであることを確認します。高い残差および低い残差の統計的に有意なクラスタリング(モデルの下方予測および上方予測)は、主要な変数がモデルにないこと(モデルが正しく指定されていないこと)を示します。OLS の結果は、モデルが正しく指定されていない場合は信頼できません。
- 最後に、「回帰分析の基礎」の「回帰モデルの不適切な指定」セクションを参照して、OLS 回帰モデルが適切に指定されていることをチェックします。OLS 統計レポートの最後にある「注釈」というセクションを参照すると、各統計テストの目的を再確認できます。
(C)[出力フィーチャクラス] の残差を調べます。適切に指定された回帰モデルの上方予測と下方予測は、ランダムに分散されます。上方予測および下方予測のクラスタリングは、少なくとも 1 つの主要な説明変数がないことを示します。モデルの残差のパターンを調べて、どの変数が不足しているかを特定するためのヒントがあるかどうかを確認します。回帰残差で [Z スコア レンダリング処理を含むホット スポット分析(Hot Spot Analysis with Rendering)] ツールを実行すると、上方予測および下方予測においてより広いパターンを確認できることがあります。
(D)係数テーブルと診断テーブルを確認します。係数テーブルと診断テーブルを作成するかどうかはオプションです。効果的なモデルを見つけ出すプロセスを行っている間に、これらのテーブルを作成するかどうかを選択します。モデルを構築するプロセスは反復的であり、一般的に、いくつかの適切なモデルに絞り込むまで、多数のさまざまなモデル(異なる説明変数)を試す必要があります。レポートの [Corrected Akaike Information Criterion (AICc)](補正赤池情報量基準(AICc))の値を確認することで、モデルを比較できます。[AICc] の値がより小さいモデルが、より適切なモデルです(つまり、モデルの複雑さを考慮すると、[AICc] の値が小さければ小さいほど、観測されたデータにより近似していることを示します)。最終的な OLS モデルについては、常に係数テーブルと診断テーブルを作成して、モデルで使用されている説明変数とその係数のリスト、標準誤差、確率などの OLS レポートの最も重要な要素と各診断テストの結果を記録しておくことをお勧めします。診断テーブルには、各テストの説明とテスト結果を解釈するためのガイドラインが含まれています。
参考資料
OLS について学習するために役立つリソースは多数あります。まず、「回帰分析の基本」を読むか、Esri Virtual Campus にある 1 時間の無料 Web セミナー「Regression Analysis Basics」を見てください。次に、「Regression Analysis tutorial」を学習してください。