【二項分布が正規分布で近似できるのはなぜ?】簡単な証明方法と応用事例
二項分布は正規分布で近似できることの簡単な証明方法
二項分布は成功/失敗等、二者択一の結果しか取らないベルヌーイ試行において、成功回数の確率分布を表します。
この二項分布は多項分布の特殊ケースであることを、下記の記事で解説しました。
ベルヌーイ分布/二項分布/カテゴリ分布/多項分布の関係をまとめてみた。
二項分布を使うと、確率pで成功する試行をn回繰り返して、x回成功する確率が
f(x) = n!/(n-x)!x! px (1-p)(n-x)
で計算できます。
例えば、サイコロを3回投げて1回だけ1が出る確率は、p=1/6、n=3、x=1を代入することにより、
f(1) = 3!/(3-1)!1! (1/6)1 (1-1/6)(3-1)
⋍ 35%
と計算できます。
二項分布はこの試行回数nが大きくなると、正規分布とほぼ同じと見なせるという性質があります。
なぜ同じと見なせるのか?についての証明方法はいくつかありますが、今回はその中で一番簡単な証明方法を紹介します。
数式はほとんど使いません。
国語とイマジネーションで理解できます。
また最後に、この性質を使うとどんな風に便利になるのか?を具体例を使って解説してみたいと思います。
まずは二項分布の平均と分散を求める
平均を求める万能の公式
まず準備として、二項分布の平均と分散を求めておきます。
まずは平均からです。
平均というと、
「全部足してデータの数で割る」
というのが定石ですが、もっと一般化すると、
「各データに確率を掛けて全部足す」
となります。
例えば、サイコロを投げて出る目の数の平均を求めるには、
1+2+3+4+5+6÷6=3.5
と計算するのが普通です。
しかし、もしそのサイコロが50%の確率で1が出て、2から6までは10%ずつの確率でしか出ないいかさまサイコロだったらどうでしょうか?
その場合の出る目の平均は、
1×10%+2×10%+3×10%+4×10%+5×10%+6×50%=4.5
と計算します。
この計算方法は正常のサイコロでも使えて、
1×1/6+2×1/6+3×1/6+4×1/6+5×1/6+6×1/6=3.5
と計算できて、最初の方法と同じ結果になります。
つまり、
「各データに確率を掛けて全部足す」
がどんな場合でも対応できる平均の求め方になります。
この方法を平均を求める万能の公式と呼ぶことにします。
万能の公式を使って二項分布の平均を求める
これを使って二項分布の平均を求めてみます。
まず、確率pの二項分布に従う母集団があると考えて下さい。
二項分布は二値しか取りませんので、1か0のデータが沢山あります。
この中からデータを1個取り出します。
そのデータは1か0か分かりません。
しかし、1である確率がp、0である確率が1-pということは分かっています。
従って平均は、先ほどの万能の公式を使って
1×p+0×(1-p)=p
と計算できます。
万能の公式を使って二項分布の分散を求める
次に分散です。
分散は
「平均とデータとの差の二乗を足して、データ数で割る」
という求め方が普通ですが、これも平均と同じように一般化できて、
「平均とデータとの差の二乗に確率を掛けて全部足す」
となります。
これを分散を計算する万能の公式と呼ぶことにします。
再度、確率pの二項分布に従う母集団があると考えて下さい。
この中からデータを1個取り出した場合の分散を求めます。
取り出したデータは1か0です。
また取り出したデータの平均は先ほど求めた通りpです。
ということはデータが0の場合、平均とデータとの差はpです。
データが1の場合は、平均とデータとの差は1-pです。
従って分散は、
取り出したデータが0の場合:p2
取り出したデータが1の場合:(1-p)2
になります。
取り出したデータが実際に1か0かは分かりませんが、1である確率がp、0である確率が1-pであることは分かっています。
従って、分散は先ほどの万能の公式を使って、
p2×(1-p)+(1-p)2×p=p (1-p)
で求められます。
これで母集団からデータを1個取り出した場合の平均と分散が分かりましたが、n個取り出した場合の合計についてはどうなるでしょうか?
(合計の平均と分散を求めたいということです)
平均は簡単ですね。
1個平均pのデータn個の合計の平均はnpです。
分散はどうでしょうか?
実はこれも簡単です。
分散の加法性が成り立ちますので、n個分足せばよいだけです。
従って、np(1-p)です。
【分散の加法性とは?】足し算だけでなく平均値にも応用する方法を解説
これで二項分布の平均と分散が求まりました。
二項分布に従うデータn個の平均はnp、分散はnp(1-p)です。
あとは中心極限定理を適用するだけ
さて、これからがnを大きくすると二項分布は正規分布に近づくことの証明です。
この証明は中心極限定理を認めてしまえば、数学を使わず国語の世界でできてしまいます。
中心極限定理とは、
「母集団の分布が何であろうと、サンプルサイズnが大きければ確率変数の和はいつでも正規分布になる」
でした。
消費の合計である需要は正規分布になることを中心極限定理で説明する
二項分布とは、成功確率がpである母集団からn個のデータをサンプルしてきた時に、1であるデータの個数の確率分布です。
1でないデータは0ですので、1であるデータの個数はサンプルしてきたデータすべてを足した合計値です。
1の個数=サンプルしたデータの合計値
従って二項分布に中心極限定理を当てはめると、
「nが大きければ、n個中1がx個である確率分布を表す二項分布は、いつでも正規分布になる」
または
「nが大きければ、n回の試行でx回成功する確率分布を表す二項分布は、いつでも正規分布になる」
ということになります。
そしてこの正規分布はnを大きくしただけの二項分布ですので、もちろん平均も分散も二項分布のそれと同じになります。
つまり、
「成功確率pの試行をn回繰り返した時にx回成功する確率を表す二項分布は、nが大きいと平均np、分散np(1-p)の正規分布に近づく」
ということになります。
二項分布と正規分布のグラフを描いて比較してみる
それではnが10の時と100の時とで、二項分布と正規分布のグラフを比べてみましょう。
成功確率0.3、n=10の場合、Excelで次のようにして計算できます。
グラフにすると、こうなります。
二項分布は離散値しか取らないので、点でプロットしています。
正規分布の曲線上からは少しズレていることが分かります。
次にn=100にして同じように計算すると、次のようなグラフになりました。
今度は、ほぼ一致しました。
これがnが大きいと二項分布は正規分布で近似できることの意味ですが、nが小さくても精度を求めなければ近似できていることも分かります。
正規分布で近似できる拠り所は中心極限定理ですが、この定理で主張しているのは
「どんな分布でも、その中から数多くサンプリングすれば、その合計は正規分布になる」
ということだけです。
でも、二項分布は元々正規分布のような形をしているので、nが大きくなくても正規分布とほぼ同じ形です。
そして二項分布の平均と分散はnが小さくても正規分布に使えるので、精度を求めないのであればnが小さくても二項分布は正規分布で近似できることになります。
便利な応用事例
二項分布をExcelで計算すると桁溢れし易い
最後に、二項分布が正規分布で近似できて嬉しい事例を紹介します。
1994年にオリックスのイチローは546打数210安打、打率.385の成績を残しました。
一方、今年、広島の鈴木誠也は435打数138安打、打率.317で首位打者に輝きました。
イチローの安打数がポアソン分布にならず正規分布になる理由を考察してみた
もし、1994年のイチローが今年の鈴木誠也と同じ435打数しかなかった場合、200本安打を達成できた可能性は何%でしょうか?
これを二項分布を使って計算するには、Excelで次のように入力します。
しかし、このようにエラーになってしまいます。
階乗の計算で桁溢れしてしまい、170!以上の計算ができないためです。
正規分布の計算では桁溢れしない
そこで正規分布で近似します。
平均=np、分散=np(1-p)の正規分布で近似できるので、次のように計算できます。
分かり易いように、先ほどの隣の列に入力します。
f(x)の計算ではExcelの正規分布関数を使っています。
f(x) = NORM.DIST(確率変数、平均、標準偏差、FALSE)
これをグラフにすると、次のようになります。
正規分布になるのですが、縦軸は確率密度です。
確率密度を積分した値が確率ですので、図の点線より右側の山の下側の面積が200本以上打つ確率になります。
ほとんど可能性はなさそうですね。
正規分布の便利な性質を使えることが嬉しい
詳しく調べるには、累積確率を求めます。
累積確率の計算は先ほどのExcel関数で、FALSEをTRUEに変えるだけです。
累積確率=NORM.DIST(確率変数、平均、標準偏差、TRUE)
Excelで計算すると次のようになります。
199本以下の確率が99.9%になりました。
さすがのイチローでも、これだけ打数が少ないと200本安打は難しいことが分かります。