【スーパーわかりやすく!】不偏標準偏差を求めるにはn-1で割ることを証明する
以前の記事で標準偏差には2種類あり、単に標本データのばらつきを求めたい場合にはnで割り、母集団のばらつきを推定したい場合にはn-1で割ることを解説しました。
そして、後者を不偏標準偏差と呼びました。
>> 標準偏差はnで割るの?n-1で割るの?【誰もが一度は疑問を持つ】
この記事に対して、
「標本のばらつきが母集団のばらつきと同じとは限らない。そのためn-1で割ることによって補正していることは分かったが、なぜn-2やn-3でなくて、n-1なのだ?」
という質問をいただきましたので、今回はこれについてお答えします。
n-1で割ると丁度良いことを実験してみる
それにお答えする前に、n-1で割ると丁度良い具合に母集団のばらつきを推定できることを実験で確かめてみましょう。
母集団は平均10、標準偏差3の正規分布に従うとして、そこから10個のデータを抜き出すとします。
この10個のデータのことを、標本サイズ10の標本といいます。
この標本を10回抜き出して、それぞれの平均と標準偏差を計算してみると次のようになります。
※平均10、標準偏差3の正規分布に従う母集団データを作るために、NORM.INV関数を使っています。
詳しくは下記を参照して下さい。
エクセルを使って正規分布の乱数を生成する方法をわかりやすく解説
ここで計算している標準偏差は標本の標準偏差ですので、標本サイズnの10で割っています。
これらの平均は2.8です。
確かに母集団の標準偏差3より小さくなっていますね。
これが、標本の標準偏差は母集団の標準偏差より小さくなるということです。
しかし、10個の標本標準偏差をよく見てみると、3より大きな値も4回出現しています。
赤色の数字です。
このように、標本標準偏差が母集団の標準偏差より小さくなるとは言っても、あくまで平均的にということであって、個々で見るとそうではないデータもかなりあることには注意が必要です。
更に、10個の標準偏差の平均を取っても、母集団の標準偏差より大きくなることもあります。
下記はその1例です。
ですので、
「標本の標準偏差は母集団のそれよりも小さくなってしまうから、それを補正するためにn-1で割って大きくしているのだ」
とは言っても、あくまで平均的な議論をしているに過ぎないということには留意が必要です。
実際に何度もシミュレーションしてみると、平均は2.85くらいになります。
このことから、標本の標準偏差2.85から母集団の標準偏差3を推定するには、√{n/(n-1)}倍しないといけないのです。
標本の標準偏差を求める時にn-1で割っておけば、このような換算はしなくて済むので、母集団の標準偏差を推定したい時にはn-1で割るのです。
不偏標準偏差を求めるのにn-1で割ることの証明
母集団の分散を2つの分散に分解する
標準偏差の計算式にはルートが付いていて分かりにくいので、その2乗である分散で話しを進めます。
また、母集団の平均をμとします。
標本平均と母集団平均は混同し易いのですが、前者はサンプルしてきたn個のデータの平均、後者はもっと大きなデータの集合である母集団データの平均です。
後者を知るのは大変なので、普通は前者から後者を推定します。
同じように、母集団の分散をσ2とします。
すると、母集団の分散σ2は分散の公式から次式のように書けます。
ここまでで、母集団の分散を【各データの標本平均からの分散】(第1項目)と【標本平均の母集団平均からの分散】(第2項目)の2つに分解できました。
このように母集団の分散を2つに分解するところがミソです。
「分散の加法性」を適用する
そして、もう一つのミソが第2項目の【標本平均の母集団平均からの分散】を変形するところです。
この項は分散の公式においてxiをx̄に変えただけで、標本の分散ではなく標本平均の分散を求める式になっています。
標本平均というのは
Σxi/n
ですので、その分散は
V(Σxi/n)
です。
ここで分散の加法性を使います。
【分散の加法性とは?】足し算だけでなく平均値にも応用する方法を解説
観測値 X1 と X2があり、Y = a1X1 +a2X2の時、分散V(Y)は
V(Y) = a12V(X1) + a22V(X2)
になるというのが、分散の加法性です。
これを使うと、
V(Σxi/n)
=1/n2 ・V(Σxi)
=1/n2 ・n・V(xi)
=1/n・V(xi)
=1/n・σ2
になります。
最後に簡単な式変形でn-1で割ることが示せる!
つまり第2項目の標本平均の分散はσ2/nです。
これを先ほどの式に当てはめると、次のようになります。
これで証明終わりです。
ちゃんとn-1で割られていますね。
証明を簡単にまとめると次のようになります。
- 母集団の分散を標本平均の分散とその他の分散に分解する
- 標本平均の分散はσ2/nなので、式変形すると母集団の分散はn-1で割ることが示せる
まとめ
標本平均x̄から母集団の分散σ2を求めるには、n-1で割ればよいのです。
但し、これは平均的な話しであって、個別には大きくばらつくことは先に述べた通りです。
ですので、実データで計算して何かおかしくても焦らないで、何度も何度もしつこく計算して平均を取りましょう。