「負の二項分布」の4通りの定義を具体例を使ってまとめて解説する決定版
負の二項分布には4通りの定義がある
成功か失敗か二者択一しかない試行を何回か繰り返した場合、成功した各回数の確率を求める式が二項分布でした。
これに対して、同様の二者択一の試行を繰り返した場合に、ある特定の回数成功するための各試行回数の確率を求める式が負の二項分布でした。
ところが本によっては、負の二項分布はある特定の回数成功するための各失敗回数の確率を求めるための式とも書かれています。
どちらが本当なのでしょうか?
実は2つとも本当です。
というか、あと2つあり、全部で4通りの定義があります。
これが負の二項分布の理解を難しくしている原因です。
またマーケティングを数学して、USJをV字回復させた逸話を書籍化した「確率思考の戦略論 USJでも実証された数学マーケティングの力」の中で中核となっている「売上を支配する式」として紹介されているNBDモデルは、市場構造を負の二項分布に帰着させています。
負の二項分布をしっかり理解したいと思っているマーケターの方も多いのではないでしょうか。
この記事を読めば、全部すっきりと理解できるでしょう。
まずは2つの定義を理解する
コイン投げにおける負の二項分布の2つの定義
先ほど、
同様の二者択一の試行を繰り返した場合に、ある特定の回数成功するための各試行回数の確率を求める式が負の二項分布である
とか
同様の二者択一の試行を繰り返した場合に、ある特定の回数成功するための各失敗回数の確率を求める式が負の二項分布である
と申し上げましたが、何だかよくわかりませんね。
そこで、コイン投げを例に取って説明します。
コイン投げは表か裏という二者択一の結果しかありませんね。
ですので、コイン投げは二者択一の試行です。
この試行のことをベルヌーイ試行と言いますが、この名前は別に覚えなくても大丈夫です。
2回表を出すために何回コインを投げればいいでしょうか?
そんなの分かりませんね。
やってみないと分からないし、しかも毎回変わるはずです。
これを数学的に言うと、
「試行回数は確率変数である」
と言います。
試行回数が2回である確率がa%、3回である確率がb%、、、というように変数の値は確率とセットになっています。
このように確率変数と確率のセットを求める関数式が確率分布です。
負の二項分布では、試行回数とそれに対応する確率のセットを求める式です。
先ほどの例に戻ります。
コイン投げで2回表を出すには、何回投げればいいでしょうか?
負の二項分布で計算すると、2回の確率25%、3回の確率25%、4回の確率19%、、、というように計算できます。
これが、
同様の二者択一の試行を繰り返した場合に、ある特定の回数成功するための各試行回数の確率を求める式が負の二項分布である
の定義で言っている意味です。
(ある特定の回数成功:2回表が出る、各試行回数:2回、3回、4回、、、)
では、
コイン投げで2回表を出すために、何回裏が出るでしょうか?
これもやってみないと分からないし、毎回結果は変わりますので、何回裏が出るかも確率変数です。
これを負の二項分布で計算すると、0回の確率25%、1回の確率25%、2回の確率19%、、、というように計算できます。
これが、もう一つの定義
同様の二者択一の試行を繰り返した場合に、ある特定の回数成功するための各失敗回数の確率を求める式が負の二項分布である
で言っている意味です。
2つの定義は同じこと
2つの定義の違いが分かりましたか?
2回表を出すための試行回数の確率分布を求めるか、裏が出る回数の確率分布を求めるかの違いです。
でも、結果を見てみると何だか似ていますね。
【試行回数の確率分布】
2回の確率25%、3回の確率25%、4回の確率19%、、、
【裏が出る回数の確率分布】
0回の確率25%、1回の確率25%、2回の確率19%、、、
そう、2回ずつずれているだけです。
これは考えてみれば当たり前のことです。
なぜなら、2回表を出すのに2回の試行が必要ということは、裏が出る回数はゼロですね。
同様に3回の試行が必要ということは、1回だけ裏が出たということです。
2回表が出たという条件の下では、
裏の出る回数=試行回数-2
になるのです。
これから分かるように、この2つの定義は同じことを言い変えているだけです。
もう少し論理的に整理しておきましょう。
試行回数をx、表が出る回数をk、裏が出る回数をrとします。
1番目の定義は、k回表が出るまでの試行回数xの確率分布
2番目の定義は、k回表が出るまでに裏が出る回数rの確率分布
を求めるということです。
このように定義すると、x-kの確率とrの確率は同じになります。
表と裏を変えたのがもう2つの定義
では、あと2つの定義は何でしょうか?
1番目と2番目の定義では、表が出る回数を基準にして考えていました。
あとの2つの定義では、裏が出る回数を基準にして考えます。
つまり次のような定義になります。
3番目の定義:r回裏が出るまでの試行回数xの確率分布
4番目の定義:r回裏が出るまでに表が出る回数kの確率分布
1&2番目の定義から想像が付くように、x-rの確率とkの確率は同じになります。
それでは、4つの定義を更に論理的に整理しておきましょう。
試行回数x、表が出る回数k、裏が出る回数rの間には
x=k+r
の関係がありますね。
つまり、3つの変数がありますが、そのうち2つが決まれば残りの1つは自動的に決まります。
これを数学では、自由度が2と言います。
実質的な変数は2つということです。
4つの定義は、これら2つの変数のうち1つを固定して、もう1つの変数の確率分布を求めていることになります。
すなわち、
定義1:kを固定してxの確率分布を求める
定義2:kを固定してrの確率分布を求める
定義3:rを固定してxの確率分布を求める
定義4:rを固定してkの確率分布を求める
です。
負の二項分布の4通りの定義式を導出する
以上が負の二項分布に4つの定義があることの説明でした。
それでは、それぞれの定義式を導出していきましょう。
導出は二項分布の式を理解していることが前提になりますので、自信のない方はまずこちらを読んでみて下さい。
二項分布の公式の意味とExcelでグラフを描く2通りの方法を実演
定義1:k回表が出るまでの試行回数xの確率分布
x-1回目の試行までにk-1回表が出ていて(裏はx-1-(k-1)回)、x回目の試行で表が出るので、
定義2:k回表が出るまでに裏が出る回数rの確率分布
k+r-1回目の試行までにr回裏が出ていて(表はk-1回)、x回目の試行で表が出るので、
定義3:r回裏が出るまでの試行回数xの確率分布
x-1回目の試行までにr-1回裏が出ていて(表はx-r回)、x回目の試行で裏が出るので、
定義4:r回裏が出るまでに表が出る回数kの確率分布
k+r-1回目の試行までにr-1回裏が出ていて(表はk回)、x回目の試行で裏が出るので、
Excelで負の二項分布のグラフを描く
次に、これらの定義式を使ってExcelでグラフに描いてみましょう。
普通のコインでは面白くないので、表が60%の確率で出易いように細工をしたイカサマコインを想定します。
定義1:5回表が出るまでの試行回数xの確率分布
定義式でp=0.6、k=5に固定し、xだけの関数にします。
定義2:5回表が出るまでに裏が出る回数rの確率分布
定義式でp=0.6、k=5に固定し、rだけの関数にします。
定義3:5回裏が出るまでの試行回数xの確率分布
定義式でp=0.6、r=5に固定し、xだけの関数にします。
定義4:r回裏が出るまでに表が出る回数kの確率分布
定義式でp=0.6、r=5に固定し、kだけの関数にします。
定義1のグラフと定義2のグラフを見比べてみて下さい。
定義1のグラフを左へ5目盛だけ平行移動すると、定義2のグラフになることが確認できます。
同様に、定義3のグラフを左へ5目盛だけ平行移動すると、定義4のグラフになることが確認できます。
これら4種類の負の二項分布の具体例については、こちらで解説しています。
【4通りの負の二項分布の使い方】具体例でわかりやすく解説します。