kntty.hateblo.jp

ここに何か書く。

分散と不偏分散と標準偏差と標準誤差と

それぞれどちらを使うべきか、時々混乱するので、整理する。

分散と不偏分散の定義

以下、手元に$n$個のサンプル $x _ i$ があって、その平均が $ m $ であるとする。

  • (通常の)分散: $ σ ^ 2 _ P = \frac {1}{n} \sum _ i {(x _ i - m)} $
  • 不偏分散: $ σ ^ 2 _ S = \frac {1}{n - 1} \sum _ i {(x _ i - m)} $

Excelだと、前者が「VAR.P」、後者が「VAR.S」という関数に対応するので、 添え字はそれに倣っている。

分散と不偏分散の使い分け

  • 分散 $σ ^ 2 _ P$は、手元のサンプル n 個が、計算対象の全て(母集団そのもの)であるとき
  • 不偏分散 $σ ^ 2 _ S$は、ある母集団から任意個抽出してきた n 個が計算対象であるとき

に使う。

(不偏分散の方は、厳密には、手元の $n$ 個から、母集団$N (> n)$個の分散を 予想したい場合に使う、と書いた方が正確か。)

ちなみに、なぜ $n$ より小さい値($ n - 1$) で割るのか、その理由については、 次のリンク先の「数式を使わない感覚的な説明」の図が 非常に直感的で好き。

不偏標本分散の意味とn-1で割ることの証明 | 高校数学の美しい物語

標準偏差と標準誤差の定義

  • 標準偏差: $ SD = σ $
  • 標準誤差: $ SE = \frac{σ}{\sqrt n}$ (厳密には、標本平均の標準誤差)

標準偏差と標準誤差の使い分け

  • 標準偏差は、データのばらつき具合をの大きさを数値化して比べたいとき
  • 標準誤差は、ある推定量(特にここでは標本平均)の精度を見極めたいとき

に使う。

標準偏差の方は、「データそのもの」のばらつき具合であるから、 nを増やせば増やすほど、母集団のばらつき具合の値(つまり、標準誤差)に近づく。

標準誤差の方は「データの(推定)平均値」のばらつき具合、
言い換えれば「母集団のN個からランダムにn個取って、平均値を推定」してみる試行を 何回も行ったときの、推定値のばらつき具合である。
したがって、nを増やせば増やすほど確度が高まり、0に近づいていく。

なお、定義については次のサイトを参照した。

標準偏差と標準誤差の違いをわかりやすく!計算式やエラーバーでの使い分けは?|いちばんやさしい、医療統計