ベイズ推定とMAP推定の違いを高校野球の勝率予測でわかりやすく解説

2021年6月16日2024年5月19日

2030年夏の甲子園、PL学園が圧倒的な強さで春夏連覇しました。

しかし優勝メンバーは3年生オンリーだったため、秋からの新チームではレギュラー陣ががらりと入れ替わりました。

新チームになってからの成績は、練習試合と公式戦を含めて4勝1敗です。

次の試合のPL学園の勝率はいくつと予想できるでしょうか？

（ここで言う勝率とは神が決めた勝率で、実際の勝ち負けはその勝率により確率的に決まります）

1. 事前確率を確率分布で表すことができるベータ分布
- 1.1. ベータ分布に二項分布を掛けるとベータ分布になる
- 1.2. ベータ分布でいろいろな確信度を表現できる
2. MAP推定は事後確率を点で予測する
3. ベイズ推定は事後確率を確率分布で予測する
4. まとめ

事前確率を確率分布で表すことができるベータ分布

ベータ分布に二項分布を掛けるとベータ分布になる

前回のプロ野球の例（最尤推定とMAP推定【プロ野球から学ぶ】）との違いは、新チームのメンバーが入れ替わったので、過去の成績が参考にならないことです。

MAP推定では昨年の成績（事前確率）を考慮して勝率の推定をしましたが、それが使えません。

しかし天下のPLですから、並みのチームよりは強いと考えられます。

そこで勝率2/3を頂点とする釣鐘状の分布を事前確率としたいと考えます。

そのために次式で表されるベータ分布を使います。

1 / B(a,b) ×p^a-1×(1-p)^b-1

このベータ分布を使うメリットは2つあります。

1つめは、ベータ分布に二項分布の式

_nC_k×p^k×(1-p)^(n-k)

を掛けると計算が簡単で、計算結果もまたベータ分布になることです。

【千葉ロッテ荻野で学ぶ】二項分布で打率から安打数を予測できるか試してみた

1 / B(a,b) ×p^a-1×(1-p)^b-1×_nC_k×p^k×(1-p)^(n-k)

＝A×p^a-1+k×(1-p)^b-1+n-k（Aは定数）

となり、計算結果もベータ分布となります。

ベータ分布でいろいろな確信度を表現できる

2つめは、aとbを変えることで、いろいろな確率をいろいろな確信度と共に定義できることです。

例えば次のような感じです。

a＝1、b＝1の場合（全く見当が付かない場合）

a＝3、b＝2の場合（なんとなく勝率2/3と予想する場合）

a＝11、b＝6の場合（ある程度の確信をもって勝率2/3を予想する場合）

今回は、なんとなく勝率2/3くらいかなと思うので、a＝3、b＝2のベータ分布を事前確率とします。

なお、ベータ分布はこのような二項分布の事前分布としての使い方以外にも、便利な使い方ができます。

こちらで解説していますので、よろしければ参照してみて下さい。

【同じ打率でも確実性は違う】ベータ分布を使って成功確率を確率分布で比較

MAP推定は事後確率を点で予測する

それではまず、このベータ分布を事前確率に使って、前回やったMAP推定でPL学園の勝率を予測してみましょう。

a＝3、b＝2のベータ分布で事前確率は次式のように表せます。

事前分布＝1 / B(3,2) ×p²×(1-p)¹

尤度は4勝1敗ですので、二項分布を使って次のように表せます。

尤度＝₅C₄×p⁴×(1-p)^(5-4)

これらを掛け合わせることにより、事後確率は次のように計算できます。

事後確率＝事前確率×尤度

＝1 / B(3,2) ×p²×(1-p)¹×₅C₄×p⁴×(1-p)^(5-4)

＝A×p⁶×(1-p)²（Aは定数）

事後確率はp＝k/nの時に最大値を取りますので、6/8＝0.75となり、PL学園が次の試合に勝つ勝率は75%と予測できます。

ベイズ推定は事後確率を確率分布で予測する

このようにMAP推定では勝率75%と予測できましたが、どのくらいの確信度で予測しているのかまでは分かりません。

これも含めて予測するのがベイズ推定です。

計算の仕方はMAP推定と似ています。

MAP推定では次のように計算しました。

事後確率＝事前確率×尤度

＝1 / B(3,2) ×p²×(1-p)¹×₅C₄×p⁴×(1-p)^(5-4)

＝A×p⁶×(1-p)²（Aは定数）

3行目で1 / B(3,2) ×₅C₄を定数Aにまとめていますが、ベイズ推定ではこれを真面目に計算します。

計算すると次のようになります。

1 / B(3,2) ×₅C₄＝(3+2-1)!/(3-1)!(2-1)!×5!/(5-4)!4!＝60

よって、事後確率は次式のようになります。

事後確率＝60p⁶(1-p)²

これをグラフに描くと次のようになります。

75%が一番ありえそうな勝率で、50%や90%も確率は低いけどもありえそうなことが読み取れます。

90%の確信をもって勝率何％以上というような予測を求めたい時には、累積確率分布にします。

累積確率分布のグラフは次のようになります。

このグラフから、勝率50%以下になる確率は10%以下しかないということが読み取れます。

従って、PL学園が次の試合に勝つ勝率は、90%の確信をもって50%以上ということが言えます。

まとめ

このようにベイズ推定では予測の確信度まで分かります。

MAP推定は平均だけ点推定するのに対し、ベイズ推定は確率分布まで予測できるためです。

今回は勝ち／負けや成功／失敗など、2つに1つのことが起こる事例のベイズ推定を取り上げました。

これはこれで物流に応用できます。

ベイズ推定で事後確率の確信度を求め、安全在庫の設定に生かす具体例

でも、もうひとひねり欲しいところです。

遅れる／遅れないに応用できますが、遅れない確率がある確信度をもって推定できたとしても、何日とか何時間遅れるというところまで分からないと、高度な意思決定に使えないからです。

どれくらい遅れるかという定量推定をするためには、二項分布ではなく、正規分布に従う確率分布の推定が必要になります。

【正規分布のベイズ推定】予想打率を逐次更新する例でわかりやすく解説

確率AI,MAP推定,プロ野球,ベイズ推定,ベータ分布,最尤法,確率分布

Posted by ロジギーク