【同じ打率でも確実性は違う】ベータ分布を使って成功確率を確率分布で比較
打率.270のDeNA今永は巨人岡本より巧打者なのか?
今季、DeNAのエース今永はピッチャーにして打率.270と野手並みの打率を残しました。
一方、巨人の4番岡本はホームラン、打点の2冠王に輝いたものの打率は.265でした。
これをもって今永が岡本より強打者と言う人はいないと思いますが、ヒットを打つのが上手い巧打者なのかもしれないと言う人はいるのではないでしょうか。
「いやいや、今永は打席数が少ないだけでまぐれだよ」
と言うかもしれませんが、ではあと何打席あれば認めてもらえるのでしょうか?
「それは規定打席だよ」
と言うかもしれませんが、それでは本当に素晴らしい打撃センスを持ったピッチャーはいつまで経っても認めてもらえないことになります。
そんな場合に、客観的な数字で示してくれるのがベータ分布です。
これによって同じ.270の打率でも、どのくらいの確からしさなのかを示すことができます。
そこで、まずはベータ分布の仕組みから見ていきましょう。
ベータ分布とは?
ベータ分布は成功確率を確率分布で表すことができる
ベータ分布は成功回数と失敗回数が分かっている時の、成功確率の分布を表します。
例えば、5回成功して5回失敗したら、成功確率1/2ですね。
でも、もしかすると本当の成功確率は1/3なのに、たまたま成功が多かっただけかもしれません。
ベータ分布では、成功確率1/2の確率は○○%、1/3の確率は△△%というように、成功確率を点ではなく確率分布で示してくれます。
具体的な公式は次のようになります。
何やら難しそうな式に見えますが、B(α,β)はf(p)の積分を1にするための定数なので、取り合えずAとしておきましょう。
すると、
f(p) = pα-1 (1-p)β-1 / A (Aは定数)
というシンプルな式になります。
気を付けないといけないのは、指数部分がα-1とβ-1になっていることです。
これらはそのまま成功回数と失敗回数を表すので、例えば5勝5敗の場合は
α-1=5
β-1=5
なので、α=β=6を代入します。
ベータ分布をグラフで見てみる
それではαやβをいろいろ変えて、どんなグラフになるかを見てみましょう。
まずα=1、β=1の場合です。
成功回数はα-1=0、失敗回数もβ-1=0になりますので、まだ何も分からないということで一様分布になります。
次にα=2、β=3、つまり1勝2敗の場合です。
これは勝率1/3ですので、p=1/3付近を頂点とする山型になります。
p=0.5が横軸の中央ですので、左よりの山になります。
逆にα=3、β=2では勝率2/3ですので、右よりの山になります。
更にもっと沢山勝負をしてα=30、β=20になると、山の幅が狭くなります。
これは証拠が増えて勝率2/3である確からしさが増すためです。
以上をグラフにすると、次のようになります。
ベータ分布の式の導出
次に、先ほどB(α,β)=Aと置いたベータ関数の中身について見てみましょう。
少し難しいので、興味がない人は次の章まで読み飛ばしても実用上は問題ありません。
まず、確率密度関数f(p)は積分すると1になる性質があるので、次のようになります。
ここで部分積分の公式を使うと、次のように式変形できます。
これで漸化式
B(α,β)=B(α-1,β+1)・(α-1)/β
ができました。
あとは、この初期項を求めます。
最後の行では、xが正の整数の時はガンマ関数はΓ(x)=(x-1)!に簡略化されることを利用しています。
これで数学の難しい話しは終わりです。
ベータ分布を打率に適用する
DeNA今永のベータ分布
2021年シーズンのDeNA今永は37打数10安打でした。
(2021投手打撃成績|プロ野球Freak より抜粋)
これをベータ分布風に言うと、10勝27敗です。
つまり、
α-1=10
β-1=27
よって、α=11、β=28です。
これをベータ分布の公式に代入すると、次のようになります。
f(p) = p10 (1-p)27 / B(11,28)
= p10 (1-p)27 Γ(11+28) / Γ(11)Γ(28)
= p10 (1-p)27 38! / 10!27!
この式のpは成功確率、この場合でいうと打率です。
ですので、pに打率を入れるとf(p)が求まりますが、それは今永の実力値がpである確率とも言うことができます。
そこでpを.000から1.000まで.01刻みに変えて、f(p)がどうなるかをExcelで計算してみましょう。
これをグラフにしてみると、こうなります。
.270を中心にばらついていますね。
でもよく見ると、.270である確率は5.5%くらいしかありません。
.150や.400になる確率も1%くらいあり、.270である確からしさは低いと言えます。
巨人岡本のベータ分布
次に巨人岡本についても、同じように調べてみましょう。
(2021年度 岡本 和真【巨人】打撃成績詳細|データで楽しむプロ野球 より抜粋)
2021年シーズンの岡本は521打数138安打でした。
ベータ分布風に言うと、138勝383敗です。
従ってα=139、β=384になります。
ベータ分布の式に代入すると、
f(p) = p138 (1-p)383 / B(139,384)
= p138 (1-p)383 Γ(139+384) / Γ(139)Γ(384)
= p138 (1-p)383 522! / 138!383!
です。
これをExcelで計算すると、次のようになります。
おっと、エラーになってしまいました。
階乗の値が大きすぎて桁溢れしてしまったのです。
計算してみたら、170!⋍7×10306までが限界でした。
しかし、慌てることはありません。
B(139,384)は先述したようにf(p)を積分した時に1になるようにするための定数ですので、別の方法で計算できます。
まず、B(139,384)を無視して計算してみましょう。
次にf(p)を0から1まで積分してみましょう。
何を唐突に!と思った方は、まずはこちらのサイトをご覧下さい。
Excelで積分の近似解を簡単に求める方法を解説しています。
【Excelで積分を計算】複雑な関数でも台形に分けて面積を計算するだけ!
この方法を使えば、f(p)の積分値は次のように計算できます。
あとはf(p)のそれぞれの値が7.6×10-133の何%かを計算すればよいだけです。
次のように計算できます。
これをグラフにすると次のようになります。
今永のグラフと同じように.270付近にピークがありますが、山の幅、つまりばらつきはかなり小さくなっています。
打率.270の確実性を比較する
.270付近の数値を拡大してみると、次のようになります。
今永の実力値が.250~.280である確率が22%しかないのに対して、岡本は70%もあります。
この数字から今永は打率.270だったが、サンプルが少なすぎて確からしさは低いということが言えます。
しかも、ただサンプルが少ないというだけでなく、.250~.280である確率が22%しかないというように数字で示せるところに価値があります。
対して、岡本の実力値は70%の確率で.260±.015以内であることから、十分に確からしいと言えます。
このようにベータ分布を使えば、成功確率の確からしさを数字でズバリと示すことができます。
なお、ベータ分布はベイズの定理の生みの親であるトーマス・ベイズ氏が提唱したのが始まりです。
ベイズの定理では
事後確率=事前確率×尤度
で確率を更新しますが、尤度が二項分布で表せる場合、事前確率分布をベータ分布で表すと計算が簡単になります。(共役事前分布と言います)
今回はプロ野球に応用してみましたが、ベータ分布は本来この共役事前分布としてよく使われます。
「ベイズの定理」の導出とその適用例をわかりやすく解説【初心者向け】