イチローの安打数がポアソン分布にならず正規分布になる理由を考察してみた
滅多に起こらない現象を表すポアソン分布はイチローの安打数にも当てはまるのか?
1994年、プロ3年目のイチローはシーズン210安打、打率.385を記録して、一気にスーパースターになりました。
この年の打率10傑は次の通りです。
(年度別成績 1994年パシフィックリーグ|NPB.JP 日本野球機構 より抜粋)
1位と2位以下の差が凄いですね。
いかにイチローが図抜けていたかが分かります。
今年のパ・リーグの規定打席以上の打者29人の安打数を見ると、試合数より少なくなっていて安打数÷試合数=0.93です。
これくらいだと、1試合当たりの安打数は「滅多に起こらない事象の確率分布」であるポアソン分布に従います。
しかし、普通でない打者のイチローは、1試合当たり1.6本以上の安打を打っています。
そのような場合もポアソン分布に従うのでしょうか?
それを調べてみました。
比較対象として1994年打率2位のカズ山本についても調べてみたかったのですが、残念ながら全試合のデータが見つかりませんでした。
そこで、今年、カズ山本と同じ打率.317を残したセ・リーグ首位打者の広島東洋カープ鈴木誠也を比較対象としました。
イチローの安打数はポアソン分布にならない
普通、27年も昔の1試合ごとの安打記録など残っていないものですが、さすがはイチロー、いくつかデータソースがありました。
今回は下記のサイトを参考にさせていただきました。
>> イチローの1994年(3年目)。全ヒット(安打)成績・記録・打率まとめ【動画あり】
このデータを元に試合ごとの安打数をまとめると、次のようになりました。
グラフにしてみると、次のようになります。
何だか、ポアソン分布っぽくありませんね。
どちらかというと正規分布に見えます。
試しに、ポアソン分布のグラフを描いてみましょう。
1試合当たりの安打数は
210÷130=1.62本
ですので、
λ=1.62
です。
1試合当たりの安打数をxとすると、そうなる確率f(x)は次式で計算できます。
f(x) = 1.62x e-1.62 / x!
【ポアソン分布の使い方】在庫管理への適用方法を具体例で解説します。
xを0から4としてExcelで次のように計算できます。
これをグラフにするとこうなります。
先ほどのグラフと比べてどうでしょうか?
明らかに左に寄っていて、違う分布に見えます。
でも目の錯覚かもしれないので、鈴木誠也でも同じことをしてみましょう。
鈴木誠也の安打数はきれいなポアソン分布になる
鈴木誠也の今シーズンの全打席成績は、こちらのサイトを参考にさせていただきました。
まとめると次のようになりました。
グラフに描くとこうなります。
いかにもポアソン分布らしいグラフですね。
試しにポアソン分布のグラフも描いてみましょう。
138試合で132安打ですので、
λ=138÷132=1.05
です。
次のようになります。
同じような分布になっていますね。
2つ並べて比べてみましょう。
ほぼ同じですね。
鈴木誠也は今年の首位打者です。
一番多くヒットを打っている打者でも、普通はこのようにポアソン分布になるのです。
イチローの安打数は正規分布になる
それでは超人イチローの安打分布は何になるのでしょうか?
見た感じは正規分布に似ています。
そこで、正規分布で近似してみましょう。
正規分布は平均μと標準偏差σが分かれば、一意に形が決まります。
【正規分布を掛け算したら標準偏差は?】Excelで計算してグラフ表示する
平均μは既に計算してある通り1.62,標準偏差σは計算すると0.95になります。
正規分布の式
に代入してExcelで計算すると、次のようになります。
これで正規分布のグラフが描けますが、計算したf(x)は確率密度です。
確率を求めるには確率密度f(x)を積分します。
また、安打数は整数ですので、下図のような区間に分けて積分値を計算します。
積分には数値的解法を用います。
【Excelで積分を計算】複雑な関数でも台形に分けて面積を計算するだけ!
これを使って、Excelで次のように計算できます。
計算された結果をグラフにすると、こうなります。
実績値と同じようなグラフになりましたね。
確認のために実績値、ポアソン分布、正規分布のグラフを並べて描くと、次のようになります。
ポアソン分布では実績と一致しませんが、正規分布ではほぼ一致していることが分かります。
イチローの安打数の分布は正規分布になっているのです。
正規分布ということは何を意味するのか?
打率が高すぎる
ポアソン分布ではなく正規分布になるということは、2つのことを示唆しています。
一つ目は、打率が高い(平均:λが大きい)ということです。
ポアソン分布は滅多に起こらない事象の確率分布でしたね。
そしてλがその滅多に起こらない小さな確率を表します。
このλを1、2、3、4に変えてグラフに描くと、次のようになります。
このようにλが大きくなるほど正規分布に近づきます。
確実性が高すぎる
二つ目は、イチローの安打数の分布はばらつきが小さい、つまり分散が小さいということです。
分散が小さいということは、好不調の波が小さく、確実性が高いということです。
上のグラフを見ると、ポアソン分布はλが大きくなると正規分布に近づきますが、山の裾野は広めです。
つまり分散が大きいということです。
これはポアソン分布には、平均も分散もλになる性質があるからです。(パラメータがλ一つしかない)
正規分布のように平均と分散を別々のパラメータとして指定できないのです。
ポアソン分布のパラメータ:λ=平均回数=分散
正規分布のパラメータ:μ=平均、σ2=分散
イチローが1試合に打つ安打数の平均は1.62です。
しかし標準偏差は0.95です。
標準偏差の二乗である分散は0.9です。
平均1.62と分散0.9はかけ離れているので、もはやポアソン分布では近似できないということです。
これに対して、鈴木誠也の平均は1.05、分散は0.9です。
平均と分散があまり違わないので、ポアソン分布で近似できます。
1994年のイチローのように、4割近い打率を残すバッターは統計的にもモノが違うことが分かります。