ベイズ推定とMAP推定の違いを高校野球の勝率予測でわかりやすく解説
2030年夏の甲子園、PL学園が圧倒的な強さで春夏連覇しました。
しかし優勝メンバーは3年生オンリーだったため、秋からの新チームではレギュラー陣ががらりと入れ替わりました。
新チームになってからの成績は、練習試合と公式戦を含めて4勝1敗です。
次の試合のPL学園の勝率はいくつと予想できるでしょうか?
(ここで言う勝率とは神が決めた勝率で、実際の勝ち負けはその勝率により確率的に決まります)
事前確率を確率分布で表すことができるベータ分布
ベータ分布に二項分布を掛けるとベータ分布になる
前回のプロ野球の例(最尤推定とMAP推定【プロ野球から学ぶ】)との違いは、新チームのメンバーが入れ替わったので、過去の成績が参考にならないことです。
MAP推定では昨年の成績(事前確率)を考慮して勝率の推定をしましたが、それが使えません。
しかし天下のPLですから、並みのチームよりは強いと考えられます。
そこで勝率2/3を頂点とする釣鐘状の分布を事前確率としたいと考えます。
そのために次式で表されるベータ分布を使います。
1 / B(a,b) ×pa-1×(1-p)b-1
このベータ分布を使うメリットは2つあります。
1つめは、ベータ分布に二項分布の式
nCk×pk×(1-p)(n-k)
を掛けると計算が簡単で、計算結果もまたベータ分布になることです。
【千葉ロッテ荻野で学ぶ】二項分布で打率から安打数を予測できるか試してみた
1 / B(a,b) ×pa-1×(1-p)b-1×nCk×pk×(1-p)(n-k)
=A×pa-1+k×(1-p)b-1+n-k(Aは定数)
となり、計算結果もベータ分布となります。
ベータ分布でいろいろな確信度を表現できる
2つめは、aとbを変えることで、いろいろな確率をいろいろな確信度と共に定義できることです。
例えば次のような感じです。
a=1、b=1の場合(全く見当が付かない場合)
a=3、b=2の場合(なんとなく勝率2/3と予想する場合)
a=11、b=6の場合(ある程度の確信をもって勝率2/3を予想する場合)
今回は、なんとなく勝率2/3くらいかなと思うので、a=3、b=2のベータ分布を事前確率とします。
なお、ベータ分布はこのような二項分布の事前分布としての使い方以外にも、便利な使い方ができます。
こちらで解説していますので、よろしければ参照してみて下さい。
【同じ打率でも確実性は違う】ベータ分布を使って成功確率を確率分布で比較
MAP推定は事後確率を点で予測する
それではまず、このベータ分布を事前確率に使って、前回やったMAP推定でPL学園の勝率を予測してみましょう。
a=3、b=2のベータ分布で事前確率は次式のように表せます。
事前分布=1 / B(3,2) ×p2×(1-p)1
尤度は4勝1敗ですので、二項分布を使って次のように表せます。
尤度=5C4×p4×(1-p)(5-4)
これらを掛け合わせることにより、事後確率は次のように計算できます。
事後確率=事前確率×尤度
=1 / B(3,2) ×p2×(1-p)1×5C4×p4×(1-p)(5-4)
=A×p6×(1-p)2(Aは定数)
事後確率はp=k/nの時に最大値を取りますので、6/8=0.75となり、PL学園が次の試合に勝つ勝率は75%と予測できます。
ベイズ推定は事後確率を確率分布で予測する
このようにMAP推定では勝率75%と予測できましたが、どのくらいの確信度で予測しているのかまでは分かりません。
これも含めて予測するのがベイズ推定です。
計算の仕方はMAP推定と似ています。
MAP推定では次のように計算しました。
事後確率=事前確率×尤度
=1 / B(3,2) ×p2×(1-p)1×5C4×p4×(1-p)(5-4)
=A×p6×(1-p)2(Aは定数)
3行目で1 / B(3,2) ×5C4を定数Aにまとめていますが、ベイズ推定ではこれを真面目に計算します。
計算すると次のようになります。
1 / B(3,2) ×5C4=(3+2-1)!/(3-1)!(2-1)!×5!/(5-4)!4!=60
よって、事後確率は次式のようになります。
事後確率=60p6(1-p)2
これをグラフに描くと次のようになります。
75%が一番ありえそうな勝率で、50%や90%も確率は低いけどもありえそうなことが読み取れます。
90%の確信をもって勝率何%以上というような予測を求めたい時には、累積確率分布にします。
累積確率分布のグラフは次のようになります。
このグラフから、勝率50%以下になる確率は10%以下しかないということが読み取れます。
従って、PL学園が次の試合に勝つ勝率は、90%の確信をもって50%以上ということが言えます。
まとめ
このようにベイズ推定では予測の確信度まで分かります。
MAP推定は平均だけ点推定するのに対し、ベイズ推定は確率分布まで予測できるためです。
今回は勝ち/負けや成功/失敗など、2つに1つのことが起こる事例のベイズ推定を取り上げました。
これはこれで物流に応用できます。
ベイズ推定で事後確率の確信度を求め、安全在庫の設定に生かす具体例
でも、もうひとひねり欲しいところです。
遅れる/遅れないに応用できますが、遅れない確率がある確信度をもって推定できたとしても、何日とか何時間遅れるというところまで分からないと、高度な意思決定に使えないからです。
どれくらい遅れるかという定量推定をするためには、二項分布ではなく、正規分布に従う確率分布の推定が必要になります。