【指数分布の使い方】大谷翔平のホームラン間隔が指数分布に従うか計算してみた
今シーズン、ロサンゼルス・エンジェルスの大谷翔平は、最後までアメリカンリーグのホームラン王争いに絡んで46本のホームランを放ちました。
今回は、その46本のホームラン間隔に焦点を当てます。
オールスター戦前の1か月は毎試合のようにホームランを打っている感じでしたが、ホームラン競争でタイミングが狂ったのか、オールスター後はホームランが出る間隔が長くなってしまいました。
最後の46本目は11試合ぶりの一打でした。
このようなスランプがあっても、ホームラン間隔は確率分布に従うのでしょうか?
ホームラン間隔を指数分布で定式化する
ホームランは1試合ごとに規則的に打ったり、予告ホームランを打ったりすることは普通はできないため、ランダムな現象と考えられます。
また同じ人が打つ場合には、ホームランを打つ確率は一定と考えられます。
このようなランダム現象の発生間隔は、指数分布に概ね従います。
指数分布は次の式で表されます。
ある期間内で一定回数起こる事象があった時、その発生間隔が従う確率分布を指数分布と言い次式で表されます。
f(x) = λe–λx
x:サイクル数
λ:サイクル内で事象が起こる平均回数
指数分布を使ってロングテール商品の欠品による機会損失を推定する
この式に含まれるサイクルは1日とか1週間など何でもよく、今回は1試合とします。
すると、ホームランが出る試合間隔の確率分布は、次のように定式化できます。
f(x)= λe–λx
x:次のホームランが出るまでの試合数
λ:1試合当たりの平均ホームラン数
この式に当てはめて、大谷のホームラン間隔の確率分布を計算します。
そして、それが実績と比べてどのくらい合っているかを調べるのが今回の目的です。
大谷のホームラン間隔は指数分布に従うか?
指数分布の確率密度を計算する
まずは大谷の全試合の打撃成績を調べました。
データは下記サイトを参考にさせていただきました。
>> 大谷翔平 2021シーズン全打席結果一覧|ABEMA TIMES
代打だけの出場機会も多かったのですが、四球だけで打数がゼロだった試合はカウントから外しました。
その結果、打数ありは149試合でした。
従って、1試合当たりのホームラン数λは
46÷149=0.31
になります。
ですので、ホームラン間隔は
f(x) = 0.31e–0.31x
の確率分布に従うはずです。
これをExcelでグラフにするには、まず次のようなシートを作ります。
指数分布はxが無限大に行くに従ってf(x)がゼロに漸近していく曲線ですが、xを15で打ち切ったのは、ここまででデータの99%が含まれるためです。
これをグラフにすると、次のようになります。
確率密度を積分する
しかし、このままではホームラン間隔の確率分布にはなりません。
求めたf(x)は確率密度と呼ばれる値で、確率とは別物です。
確率はグラフの下側の面積、つまりf(x)の積分になります。
またxは正の実数値ですが、ホームラン間隔は正の整数値ですので、次のようにしてxをホームラン間隔に変換します。
つまり、ホームラン間隔をxを四捨五入した値とします。
こうすることにより、例えばホームラン間隔が1試合になる確率は、f(x)を0.5から1.4999…までを積分した値になります。
この積分を計算するために、数値的解法を使いましょう。
【Excelで積分を計算】複雑な関数でも台形に分けて面積を計算するだけ!
この近似解法を使うことにより、次のように計算することができます。
E列が各ホームラン間隔に対応する確率になります。
これをグラフにすると、次のようになります。
実績は指数分布とほぼ一致する
これが大谷のホームラン間隔の指数分布になります。
それでは、実際はどうだったのでしょうか?
集計してグラフにすると、こうなりました。
ホームラン間隔ゼロというのは、1試合で複数ホームランを打ったということです。
比較し易いように、2つ並べてみましょう。
多少の出っこみ引っ込みはありますが、概ね一致していると言っていいでしょう。
「結構ズレてるじゃん」
と思うかもしれませんが、サンプル数が少ないのでこんなものです。
ちなみに、シーズン後半に10試合ホームランが出なかったことが1回、11試合出なかったことも2回ありました。
指数分布では10試合や11試合ホームランが出ない確率もそこそこあり、
「そんなこともあるさ、気にするな」
と指数分布は語りかけているように見えます。
大谷のシングルヒット間隔も指数分布に従うか?
大谷のホームラン間隔は指数分布に概ね従っていましたが、たまたまということも考えられます。
そこで、年間57本打ったシングルヒットの数でも検証してみましょう。
(ホームランの数とシングルヒットの数が同じくらいだったというのは驚き)
λは
57÷149=0.38
になりますので、シングルヒット間隔は
f(x) = 0.38e–0.38x
の指数分布に従うはずです。
同じように指数分布と実績を比較してみると、次のようになりました。
こちらも概ね一致していると言えるでしょう。
阪神佐藤のホームラン間隔も指数分布に従うか?
次にもっと難しそうな選手で検証してみましょう。
阪神タイガースのゴールデンルーキー佐藤は24本のホームランを放ち、田淵が持つ阪神の新人ホームラン記録22本を塗り替えました。
残念だったのは、前半戦だけで20本も打ちながら、後半戦は4本と失速してしまったことです。
このように極端なスランプがあっても、指数分布に従うのか気になるところです。
同じように計算してみると、次のようになりました。
大谷よりも出っこみ引っ込みは大きいものの、大きくはズレていないと言えるでしょう。
ただ、正直言うと1つだけ異常値を抜いています。
最後の24号は35試合ぶりの一打だったのですが、これを含めると次のようになります。
さすがの指数分布でも、ここまでは読めませんでした。
指数分布ではλは一定ということを仮定していますので、別人のように打たなくなってしまうと前提が崩れてしまうのです。
ちなみに、指数分布はポアソン分布と表裏の関係にあります。
ランダムに発生する出来事の平均発生回数をλとして、
指数分布:発生間隔の確率分布
ポアソン分布:発生回数の確率分布
ポアソン分布の使い方もホームランを例に解説していますので、良かったらこちらも参照してみて下さい。
【バックスクリーン3連発】ポアソン分布で伝説が生まれた確率を計算してみた