分散と不偏分散と標準偏差と標準誤差と
それぞれどちらを使うべきか、時々混乱するので、整理する。
分散と不偏分散の定義
以下、手元に$n$個のサンプル $x _ i$ があって、その平均が $ m $ であるとする。
- (通常の)分散: $ σ ^ 2 _ P = \frac {1}{n} \sum _ i {(x _ i - m)} $
- 不偏分散: $ σ ^ 2 _ S = \frac {1}{n - 1} \sum _ i {(x _ i - m)} $
Excelだと、前者が「VAR.P」、後者が「VAR.S」という関数に対応するので、 添え字はそれに倣っている。
分散と不偏分散の使い分け
- 分散 $σ ^ 2 _ P$は、手元のサンプル n 個が、計算対象の全て(母集団そのもの)であるとき
- 不偏分散 $σ ^ 2 _ S$は、ある母集団から任意個抽出してきた n 個が計算対象であるとき
に使う。
(不偏分散の方は、厳密には、手元の $n$ 個から、母集団$N (> n)$個の分散を 予想したい場合に使う、と書いた方が正確か。)
ちなみに、なぜ $n$ より小さい値($ n - 1$) で割るのか、その理由については、 次のリンク先の「数式を使わない感覚的な説明」の図が 非常に直感的で好き。
不偏標本分散の意味とn-1で割ることの証明 | 高校数学の美しい物語
標準偏差と標準誤差の定義
- 標準偏差: $ SD = σ $
- 標準誤差: $ SE = \frac{σ}{\sqrt n}$ (厳密には、標本平均の標準誤差)
標準偏差と標準誤差の使い分け
に使う。
標準偏差の方は、「データそのもの」のばらつき具合であるから、 nを増やせば増やすほど、母集団のばらつき具合の値(つまり、標準誤差)に近づく。
標準誤差の方は「データの(推定)平均値」のばらつき具合、
言い換えれば「母集団のN個からランダムにn個取って、平均値を推定」してみる試行を
何回も行ったときの、推定値のばらつき具合である。
したがって、nを増やせば増やすほど確度が高まり、0に近づいていく。
なお、定義については次のサイトを参照した。