【２年目のジンクスはあるのか？】母比率の区間推定の使い方を具体例で

2022年4月22日2023年10月16日

１年目のルーキーイヤーは大活躍で新人王に輝いたのに２年目はさっぱり、というのはプロ野球ではよくあることです。

これは２年目のジンクスと呼ばれ、相手チームのマークが厳しくなることが原因と言われています。

しかし統計的に見ると、２年目のジンクスは不思議でもなんでもないことが分かります。

簡単にいうと、１年目の成績はサンプルサイズが小さすぎて当てにならないということです。

以下、どのくらい当てにならないのかを具体的に見ていきましょう。

1. 母比率の区間推定とは？
2. 母比率の区間推定の計算式
3. 母比率の区間推定の計算式の導出
4. 開票率０％で当選確実がわかる理由

母比率の区間推定とは？

ここに１０年に１度しか現れないと呼び声の高いゴールデンルーキーがいます。

このゴールデンルーキーは甲子園で１大会５本塁打、打率６割超と大活躍し、昨年のドラフトで６球団競合の末、某球団に入団しました。

このルーキーはプロで今年、どのくらいの打率を残すでしょうか？

そんなことは分かりませんね。

いくら高校時代にばかすか打っていてもプロではさっぱりという打者は沢山いますし、その逆の事例も沢山あります。

そのような中、このルーキーは１年目に４０４打数１２３安打、打率.３０４という堂々たる数字を残しました。

この成績を見て、このルーキーは次の年も打率３割を残すと考えてもよいでしょうか？

もしYesであれば、あなたはこのルーキーの実力を打率３割と推定していることになります。

つまり、１年目の４０４回中１２３回成功したというサンプルの比率を見て、母集団の比率も同じ３割だろうと推定したことになります。

この母集団の比率のことを母比率といいます。

問題はサンプルの比率をそのまま母集団の比率、つまり母比率と考えてよいかということです。

例えば最初の１０打数で５安打したとして、このルーキーの実力が打率５割だという人はほとんどいないでしょう。

サンプルサイズが小さすぎるからです。

では４０４打数、つまりサンプルサイズが４０４だったら、サンプルの比率を母比率と考えてもよいでしょうか？

このような時、統計学では慎重な判断をします。

ある確率（例えば９５％）で母比率が含まれる区間を推定するのです。

例えば

母比率は９５％の確率で.２７０から.３３０の間に含まれる

というような推定の仕方をします。

これを母比率の区間推定といいます。

母比率の区間推定の計算式

この計算式は次のようになることが知られています。

サンプルの比率：Ps

母比率：Pt

サンプルサイズ：n

とすると、

Ps-1.96√(Ps (1- Ps)/n) < Pt < Ps+1.96√(Ps (1- Ps)/n)

が９５％信頼区間の区間推定になります。

これでゴールデンルーキーの母比率を区間推定してみましょう。

この場合、サンプルサイズｎが４０４で、そのうち１２３が当たり（安打）なので、サンプルの比率Psは.３０４です。

これをそのまま先ほどの式に代入すると、

0.304-1.96√(0.304*(1-0.304)/404) < Pt < 0.304+1.96√(0.304*(1-0.304)/404)

よって、

0.259 < Pt < 0.349

が９５％信頼区間での区間推定になります。

つまり、このルーキーの実力値は.２５９から.３４９の間で、これを外れる確率は５％未満ということです。

実際、このルーキーの２年目の打率は.２５９で、２年目のジンクスといわれました。

しかし統計的には９５％信頼区間にギリギリ入っていたのです。

ちなみに、このルーキーの名は清原です。

母比率の区間推定の計算式の導出

このように母比率の区間推定は比較的簡単に計算できますが、なぜこの式で計算できるのでしょうか？

以下、これを説明します。

興味のない人は読み飛ばしても大丈夫です。

大きな袋の中に無数の玉が入っていることを想像して下さい。

それらの玉は白か黒のどちらかです。

そして、この袋からランダムにn個の玉を取り出します。

これらn個のサンプルから、袋の中の白玉の比率を推定してみます。

もう少し具体的にいうと、n個のサンプルに含まれる白玉の比率Ps から、袋の中に含まれる白玉の比率Pt を推定するということです。

まず、n個の玉にX1からXnの変数を割り当て、白なら１、黒なら０とします。

するとn個のサンプルに含まれる白玉の比率は、

Ps = (X1+X2+…+Xn)/n

になります。

なぜならXiは白なら１なので、X1+X2+…+Xnはそのまま白玉の数になるからです。

ここで中心極限定理を使います。

消費の合計である需要は正規分布になることを中心極限定理で説明する

この定理を使うと、nが十分に大きい時、Ps = (X1+X2+…+Xn)/nは平均Pt 、分散σ²/nの正規分布で近似できます。

ここでσ²が必要になりますが、これはベルヌーイ分布の性質からわかります。

ベルヌーイ分布／二項分布／カテゴリ分布／多項分布の関係をまとめてみた。

ベルヌーイ分布とは成功する確率がp、失敗する確率が(1-p)の確率分布で、その平均はp、分散はp(1-p)になります。

今回の場合でいうと、袋の中に含まれる神のみぞ知る白玉の比率Ptがpになるので、分散はPt (1-Pt )になります。

従って、σ²/n = Pt (1-Pt )/nになります。

つまり、nが十分に大きい時、Ps = (X1+X2+…+Xn)/nは平均Pt 、分散Pt (1-Pt )/nの正規分布で近似できることになります。

そして平均から±1.96×標準偏差の範囲に９５％のデータが含まれるので、下図のようになります。

そしてこれを式で表すと

Pt-1.96√(Pt (1- Pt)/n) < Ps < Pt+1.96√(Pt (1- Pt)/n)

となります。

知りたいのはPtなので、これが真ん中に来るように変形すると、

Ps-1.96√(Pt (1- Pt)/n) < Pt < Ps+1.96√(Pt (1- Pt)/n)

となりますが、Ptが両辺に残ってしまいます。

そこで、nが十分に大きい場合にはPs=Ptと見なせることを都合よく使って、置き換えてしまいます。

すると、

Ps-1.96√(Ps (1- Ps)/n) < Pt < Ps+1.96√(Ps (1- Ps)/n)

となり、これが母比率の95%信頼区間の区間推定の式になります。

開票率０％で当選確実がわかる理由

この式でサンプルから母比率を区間推定できるわけですが、使っているのはサンプルの比率Psとサンプルサイズnだけですね。

母集団の大きさは関係ないということです。

これは結構興味深いことで、選挙の開票率が１％しかないのに当選確実が出る理由がここにあります。

例えば有効投票数が１万人の選挙で、１％に当たる１００票を開票した時点での得票率が６５％だったとします。

この場合の９５％信頼区間での母比率の区間推定は

0.65-1.96√(0.65*(1-0.65)/100) < Pt < 0.65+1.96√(0.65*(1-0.65)/100)

計算すると、

0.56 < Pt < 0.74

です。

つまりこの時点で９５％以上の確率で過半数を獲得できることが分かったため、当選確実といえるのです。

更に有効投票数が１００万人の選挙でも、１００人開票した時点で６５％の得票率であれば同じく当選確実です。

この場合は開票率０.０１％ですね。

テレビでは開票率０％で当選確実と報道されるのです。

統計プロ野球,区間推定

Posted by ロジギーク