ベルヌーイ分布/二項分布/カテゴリ分布/多項分布の関係をまとめてみた。

2021年11月25日

離散型確率分布の中でも有名な二項分布多項分布については、本サイトでも具体的な使い方を解説してきました。

【エクセルで実演!】二項分布のグラフの描き方を具体例でわかりやすく解説

【具体例でわかりやすく!】多項分布は何に使えるの?|納品遅延確率の予測を実演

この他に二項分布に似た分布としてベルヌーイ分布、多項分布に似た分布としてカテゴリ分布もよく目にします。

実はこれら4つの確率分布は、多項分布進化の頂点とする同じ系統に属します。

多項分布さえ理解すれば、後の3つはそれを簡単にしたものです。

そこで、多項分布からカテゴリ分布二項分布ベルヌーイ分布と遡って、それらがどういう関係にあるのかを明らかにしていきます。

 

多項分布

これはサイコロを複数回振った時に、どういう確率でどの目が出るかを予測する式だと考えると分かりやすいです。

複数回ですから、一番簡単な2回で考えましょう。

2回サイコロを振って、1が2回続けて出る確率を求めます。

多項分布の関数式は次式でした。

 

状態1、2、…、k をとる確率が p1 、p2 、…、pk のとき ( p1+p2+…+pk=1 ) 、N 回の試行で各状態を ni回 ( n1+n2+…+nk=N ) とる確率は次式で表されます。

N!/n1! … nk! (p1n1 … pk nk)

>> 【具体例でわかりやすく!】多項分布は何に使えるの?|バイト確保人数の予測で実演

 

今回の例に当てはめると、次のようになります。

 

出目1、2、…、6 をとる確率が 1/6、1/6 、…、1/6のとき ( 1/6+1/6+…+1/6=1 ) 、2 回振って1が2回 出る確率は次式で表されます。(N=2、k=1)

2!/2! (1/62) = 1/36

 

もう一問やってみましょう。

2回サイコロを振って、1が1回、2が1回出る確率はいくつになるでしょうか?

今度は状態が1と2の2つになるので、k=2になります。

2回振るのでN=2であることは変わりません。

式に当てはめると次のようになります。

2! (1/1!)(1/6) (1/1!)(1/6) = 1/18

 

2回連続で1が出る確率に比べて、2倍の確率になりました。

これは1が1回、2が1回出るパターンが、最初に1が出て次に2が出るパターンと、最初に2が出て次に1が出るパターンの2通りあるからです。

どちらかが起こる確率なので、2倍になるのです。

 

カテゴリ分布

多項分布において、N=1とした特殊ケースがカテゴリ分布です。

多項分布ではN回試行しますので、kN通りの状態ができます。

サイコロの場合だとk=6なので、1回振れば6通り、2回振れば36通り、3回振れば216通りの状態ができますね。

それぞれの状態における確率を計算するのが多項分布です。

 

カテゴリ分布は1回だけ試行する場合にしか使えません。

ですので、サイコロの場合だと1回振って1が出る確率、2が出る確率、、、6が出る確率を求めます。

そんなのイカサマコインでない限り1/6ずつに決まってますね。

だからカテゴリ分布はあまり利用価値がありませんが、多項分布の式にN=1を代入することにより次のような式で表されます。

1!/1! … 1! (p1n1 … pk nk)

= p1n1 … pk nk

 

二項分布

カテゴリ分布では多項分布の式でN=1としましたが、二項分布ではk=2とします。

kは状態の数ですので、2つの状態しか取らないということです。

言い換えると、Yes/No当たり/外れ表/裏のような二者択一の状態しか扱いません。

分かりやすい例で言うと、コインをN回投げて1回だけ表が出る確率は?2回だけ表が出る確率は?、、、N回全部表が出る確率は?を計算するのが二項分布の式です。

 

それでは多項分布の式にk=2を代入してみましょう。

N!/n1! n2! (p1n1 p2 n2)

= N!/n1! (N- n1)! (p1n1 p2 (N-n1))

= NCn1 p1n1 p2 (N-n1)

= NCn p1n (1-p1) (N-n)

= NCn pn (1-p) (N-n)

 

ここで、NCnはN個の中からn個を選ぶ組み合わせの数で

NCn = N!/n!(N-n)!

で計算できます。

【順列と組み合わせを学びなおす!】具体例を使ってわかりやすく解説します。

 

試しにコインを10回投げて1回しか表が出ない確率を求めてみましょう。

10C1 (1/2)1 (1-1/2) (10-1)

= 10!/1!(10-1)! (1/2)1 (1/2) 9

= 10 (1/2)10

= 0.0098

約1%の確率と計算できました。

 

ベルヌーイ分布

ベルヌーイ分布ではカテゴリ分布で固定したN=1と、二項分布で固定したk=2の両方を固定します。

つまり多項分布の式において、N=1とk=2を代入するとベルヌーイ分布の式になります。

1!/1! 1! (p1n1 p2 n2)

= p1n1 p2 (1-n1)

= pn (1-p) (1-n)

 

1回の試行で、しかも二者択一の状態しかないので、このようにとても簡単な式になります。

例えばコインを1回投げて表が出る確率は、p=1/2n=1とすれば良いので、

(1/2)1 (1-1/2) (1-1)

= 1/2

です。

 

逆に1回コインを投げて裏が出る確率は、p=1/2n=0とすれば良いので、

(1/2)0 (1-1/2) (1-0)

= 1/2

です。

計算するまでもない当たり前の結果なので、カテゴリ分布同様に利用価値はあまりありません。

 

4つの確率分布の関係

以上をまとめると次のようになります。

 

二者択一の単独試行しかできないベルヌーイ分布から、多試行もできるように進化して二項分布になります。

一方、同じベルヌーイ分布から多次元もできるように進化してカテゴリ分布になります。

そして二項分布から多次元に進化し、カテゴリ分布からは多試行に進化して、遂に万能の多項分布が生まれたのです。