【スーパーわかりやすく!】不偏標準偏差を求めるにはn-1で割ることを証明する

2024年3月7日

以前の記事で標準偏差には2種類あり、単に標本データのばらつきを求めたい場合にはnで割り、母集団のばらつきを推定したい場合にはn-1で割ることを解説しました。

そして、後者を不偏標準偏差と呼びました。

>> 標準偏差はnで割るの?n-1で割るの?【誰もが一度は疑問を持つ】

 

この記事に対して、

標本のばらつきが母集団のばらつきと同じとは限らない。そのためn-1で割ることによって補正していることは分かったが、なぜn-2やn-3でなくて、n-1なのだ?」

という質問をいただきましたので、今回はこれについてお答えします。

 

【ゆっくり解説】Youtubeはじめました!

n-1で割ると丁度良いことを実験してみる

それにお答えする前に、n-1で割ると丁度良い具合に母集団のばらつきを推定できることを実験で確かめてみましょう。

母集団は平均10標準偏差3正規分布に従うとして、そこから10個のデータを抜き出すとします。

この10個のデータのことを、標本サイズ10の標本といいます。

この標本を10回抜き出して、それぞれの平均と標準偏差を計算してみると次のようになります。

クリックすると拡大します

※平均10、標準偏差3の正規分布に従う母集団データを作るために、NORM.INV関数を使っています。

詳しくは下記を参照して下さい。

エクセルを使って正規分布の乱数を生成する方法をわかりやすく解説

 

ここで計算している標準偏差は標本の標準偏差ですので、標本サイズnの10で割っています。

これらの平均は2.8です。

確かに母集団の標準偏差3より小さくなっていますね。

これが、標本の標準偏差は母集団の標準偏差より小さくなるということです。

 

しかし、10個の標本標準偏差をよく見てみると、3より大きな値も4回出現しています。

赤色の数字です。

このように、標本標準偏差が母集団の標準偏差より小さくなるとは言っても、あくまで平均的にということであって、個々で見るとそうではないデータもかなりあることには注意が必要です。

 

更に、10個の標準偏差の平均を取っても、母集団の標準偏差より大きくなることもあります。

下記はその1例です。

クリックすると拡大します

 

ですので、

標本の標準偏差は母集団のそれよりも小さくなってしまうから、それを補正するためにn-1で割って大きくしているのだ

とは言っても、あくまで平均的な議論をしているに過ぎないということには留意が必要です。

実際に何度もシミュレーションしてみると、平均は2.85くらいになります。

このことから、標本の標準偏差2.85から母集団の標準偏差3を推定するには、{n/(n-1)}しないといけないのです。

標本の標準偏差を求める時にn-1で割っておけば、このような換算はしなくて済むので、母集団の標準偏差を推定したい時にはn-1で割るのです。

 

不偏標準偏差を求めるのにn-1で割ることの証明

母集団の分散を2つの分散に分解する

標準偏差の計算式にはルートが付いていて分かりにくいので、その2乗である分散で話しを進めます。

 

また、母集団の平均をμとします。

標本平均母集団平均は混同し易いのですが、前者はサンプルしてきたn個のデータの平均、後者はもっと大きなデータの集合である母集団データの平均です。

後者を知るのは大変なので、普通は前者から後者を推定します。

同じように、母集団の分散をσ2とします。

 

すると、母集団の分散σ2は分散の公式から次式のように書けます。

 

ここまでで、母集団の分散を【各データの標本平均からの分散】(第1項目)と【標本平均の母集団平均からの分散】(第2項目)の2つに分解できました。

このように母集団の分散を2つに分解するところがミソです。

 

「分散の加法性」を適用する

そして、もう一つのミソが第2項目の【標本平均の母集団平均からの分散】を変形するところです。

この項は分散の公式においてxiに変えただけで、標本の分散ではなく標本平均の分散を求める式になっています。

 

標本平均というのは

Σxi/n

ですので、その分散は

V(Σxi/n)

です。

ここで分散の加法性を使います。

【分散の加法性とは?】足し算だけでなく平均値にも応用する方法を解説

 

観測値 X1 と X2があり、Y = a1X1 +a2X2の時、分散V(Y)

V(Y) = a12V(X1) + a22V(X2)

になるというのが、分散の加法性です。

これを使うと、

V(Σxi/n)

=1/n2 ・V(Σxi)

=1/n2 ・n・V(xi)

=1/n・V(xi)

=1/n・σ2

になります。

 

最後に簡単な式変形でn-1で割ることが示せる!

つまり第2項目の標本平均の分散はσ2/nです。

これを先ほどの式に当てはめると、次のようになります。

 

これで証明終わりです。

ちゃんとn-1で割られていますね。

証明を簡単にまとめると次のようになります。

  1. 母集団の分散を標本平均の分散その他の分散に分解する
  2. 標本平均の分散はσ2/nなので、式変形すると母集団の分散はn-1で割ることが示せる

 

まとめ

標本平均から母集団の分散σ2を求めるには、n-1で割ればよいのです。

但し、これは平均的な話しであって、個別には大きくばらつくことは先に述べた通りです。

ですので、実データで計算して何かおかしくても焦らないで、何度も何度もしつこく計算して平均を取りましょう。

 

【Udemyの関連講座】

はじめての統計(推定・検定編) ~記述統計から推測統計へ!しっかり9時間、97レクチャーでデータ時代の入場券を手に入れる

データサイエンス時代にまず押さえるべきデータの扱い方・見方を扱った統計講座。データをどう要約し、分かりやすく伝えるのか(記述統計)から、そのデータから母集団について何が言えるのか(推測統計)まで、丁寧に統計的発想を身に付けます

いちばん理解できる統計学ベーシック講座その1【確率分布・推定・検定】

統計学の基礎を効率的に学べるベーシック講座です。統計学の入り口となる「確率分布・推定・検定」について豊富な図を用いて説明していきます。統計学や確率思考という一生モノのスキルを一緒に身につけましょう!