開発政策・貧困分析にも使える統計学・計量経済学の知識をシンプルに、基礎から重回帰分析まで
政策分析をするためには、統計学と計量経済学の知識と技術が不可欠。そう思って勉強を続けているが、毎度数式に滅入ってしまう。ゆっくり考えれば解るのだろうけれど、もっと直感的にシンプルに記憶できないものか常々思っている。学問の世界ではより精緻に抜け目なく、手続きにそった分析を行うのが当然なのだろうが、実務の世界では然程精緻でなくてもよく、大雑把なある程度正しい結果が出れば満足なことが多い。
学術書で統計分析を勉強していてもどかしいと感じている実務家向けのサイトがあったのでご紹介。XICA-Labsデータ統計分析研究所。統計に関する知識をとても分かりやすく説明しています。更に、実務で使うレベルを想定した説明なので、統計ソフトが計算してくれる数式(学問の世界では理解しておくべき裏側の数式)の説明は省略して、ポイントのみ端的にまとめている。
ここでは、XICA-Labsで紹介されている記事のハイライトを備忘録としてまとめた。また、補足的に参考になる他のサイトも引用している。
平均、分散、母集団と標本
偏差(Deviation)=観測値と平均値の差、分散(Variation)=偏差の二乗和の平均、標準偏差(Standard Deviation)=分散の平方根。こちらも解りやすい。あるいはこちらの説明も。
様々な確率分布の説明
二項分布、ポアソン分布、正規分布、t分布、χ2(カイ二乗)分布、F分布。
記述統計・推測統計と推定・検定
記述統計(Descriptive Statistics)は、サンプルデータ自体の傾向(平均、分散、標準偏差)を表すもの。推測統計(Inferential Statistics)は、サンプルデータを使って母集団の傾向を推定するもの。推定は、平均と標準偏差を使ってデータ(90%)が入る範囲を推測すること。検定は、推定結果が偶然起きたものかを判断すること。区間推定についてはこちら。仮説検定についてはこちら。
相関分析
絶対的な目安はないが、相関係数は0.2以上で相関関係があると認め、0.7以上あれば強い相関関係があるとする。
t値とp値の違い
有意性に関する統計量。説明変数の係数や定数項の値が信頼できるものかを判断する材料。t値が大きければ値は信頼でき、p値が大きければ値は信頼できない。t値は2以上、p値は0.1(10%)以下で信頼できると判断。
重回帰分析の分析フロー
重回帰分析を行う。有意でない説明変数を除いて再度分析。1回目の分析で有意だった変数が有意ではなくなることがある。その場合は再び有意ではない変数を除いて分析を繰り返す。いずれはすべての変数が有意となり、分析完了。最後に、分析結果の解釈を行う。相関関係なのか因果関係なのかを判断する。
重回帰分析における決定係数の目安は?
目安はなく、分野・分析内容・分析者によって基準は異なる。むしろ、①適切な説明変数が選択されているか?②その説明変数は有意か?③説明変数の係数は?④それら全てを含めて、意義のある解釈のできるモデルか?が重要。
決定係数とは?
平均からの誤差が小さい回帰直線であれば、決定係数は大きくなる。フィット感。ただ、モデルの良し悪しには関係ないのであまり気にしない。計算方法は、ベン図を使ったこちらの説明が解りやすい。
最小二乗法(OLS)の前提条件と対処法 ※こちらの記事も参照。
①分散が変数xの大きさによらず一定(均一分散):Yが消費でXが収入の場合、金持ちのほうがYのばらつきある(分散がXに依存)。
検定方法:Goldfeld-Quant’s Test、Breusch-Pagan-Godfrey Test、White Test
対処方法:変数を対数変換。加重最小二乗法(WLS)。一般化最小二乗法。
②系列相関・自己相関がない
検定方法:Durbin-Watson Test、Breusch–Godfrey Test
対処方法:
③内生性がない:誤差項に含まれる変数が説明変数に影響を与えている場合。
検定方法:Hausman Test
対処方法:操作変数法、間接最小二乗法。
不均一分散の診断方法
不均一分散(Heteroscedasticity)を無視してOLSで分析を行うと、係数の標準誤差が過小評価されることが多く、係数のt検定を行うと本来有意でないものも有意と出る場合がある。
内生性とは?
内生性(Endogeneity)は誤差項と説明変数の間に相関関係がある状態を示す。重要な変数を加えていない場合などに内生性の問題が発生する。変数を多く詰め込むと多重共線性の問題が出てくるが、有意性の低い変数を除いて再分析すればよい。
多重共線性とは?
変数が多いほど決定係数(R2)は高くなりやすいため、重回帰分析では説明変数を多く入れてしまいがち。説明変数間で相関係数が高いと多重共線性(Multicollinearity)の問題が発生。多重共線性の悪影響は、①係数の標準誤差が大きくなる、②t値が小さくなる、③決定係数が大きくなる、④回帰係数の符号が本来なるべきものと逆になる。決定係数を大きくしたいがために似た者同士をたくさん詰め込むようなズルはいけないということ。対処法は、相関関係が高い変数の一方を削除すること。主観的に残すもOK。一つずつ分析してt値の高いほうを残すもOK。
重回帰分析を理解するために知っておきたい7つの統計用語
基本的な統計用語が丁寧に解説されている。
重回帰分析の結果を読む3つのポイント
寄与率、t値、係数の読み方の説明。
重回帰分析の可能性を広げる「ダミー変数」の扱い方
重回帰分析で、異常値や質的データを考慮したいときにはダミー変数が有効。ダミー変数を1つのグループで複数作成する場合、1つ少くする(例:月曜から日曜までの7変数を同時に入れない)。多重共線性の原因に。ダミー変数の使い方に関する説明は、こちら(異常値ダミー・グループダミー)がとても分かりやすい。