【2年目のジンクスはあるのか?】母比率の区間推定の使い方を具体例で

2023年10月16日

1年目のルーキーイヤーは大活躍で新人王に輝いたのに2年目はさっぱり、というのはプロ野球ではよくあることです。

これは2年目のジンクスと呼ばれ、相手チームのマークが厳しくなることが原因と言われています。

しかし統計的に見ると、2年目のジンクスは不思議でもなんでもないことが分かります。

簡単にいうと、1年目の成績はサンプルサイズが小さすぎて当てにならないということです。

以下、どのくらい当てにならないのかを具体的に見ていきましょう。

 

母比率の区間推定とは?

ここに10年に1度しか現れないと呼び声の高いゴールデンルーキーがいます。

このゴールデンルーキーは甲子園で1大会5本塁打、打率6割超と大活躍し、昨年のドラフトで6球団競合の末、某球団に入団しました。

このルーキーはプロで今年、どのくらいの打率を残すでしょうか?

 

そんなことは分かりませんね。

いくら高校時代にばかすか打っていてもプロではさっぱりという打者は沢山いますし、その逆の事例も沢山あります。

 

そのような中、このルーキーは1年目に404打数123安打、打率.304という堂々たる数字を残しました。

この成績を見て、このルーキーは次の年も打率3割を残すと考えてもよいでしょうか?

 

もしYesであれば、あなたはこのルーキーの実力を打率3割と推定していることになります。

つまり、1年目の404回中123回成功したというサンプルの比率を見て、母集団の比率も同じ3割だろうと推定したことになります。

この母集団の比率のことを母比率といいます。

 

問題はサンプルの比率をそのまま母集団の比率、つまり母比率と考えてよいかということです。

例えば最初の10打数で5安打したとして、このルーキーの実力が打率5割だという人はほとんどいないでしょう。

サンプルサイズが小さすぎるからです。

では404打数、つまりサンプルサイズが404だったら、サンプルの比率を母比率と考えてもよいでしょうか?

 

このような時、統計学では慎重な判断をします。

ある確率(例えば95%)で母比率が含まれる区間を推定するのです。

例えば

母比率は95%の確率で.270から.330の間に含まれる

というような推定の仕方をします。

これを母比率の区間推定といいます。

 

母比率の区間推定の計算式

この計算式は次のようになることが知られています。

サンプルの比率:Ps

母比率:Pt

サンプルサイズ:n

とすると、

Ps-1.96√(Ps (1- Ps)/n) < Pt < Ps+1.96√(Ps (1- Ps)/n)

95%信頼区間の区間推定になります。

 

これでゴールデンルーキーの母比率を区間推定してみましょう。

この場合、サンプルサイズnが404で、そのうち123が当たり(安打)なので、サンプルの比率Psは.304です。

これをそのまま先ほどの式に代入すると、

0.304-1.96√(0.304*(1-0.304)/404) < Pt < 0.304+1.96√(0.304*(1-0.304)/404)

よって、

0.259 < Pt < 0.349

が95%信頼区間での区間推定になります。

つまり、このルーキーの実力値は.259から.349の間で、これを外れる確率は5%未満ということです。

実際、このルーキーの2年目の打率は.259で、2年目のジンクスといわれました。

しかし統計的には95%信頼区間にギリギリ入っていたのです。

ちなみに、このルーキーの名は清原です。

2000年巨人宮崎キャンプにて

 

母比率の区間推定の計算式の導出

このように母比率の区間推定は比較的簡単に計算できますが、なぜこの式で計算できるのでしょうか?

以下、これを説明します。

興味のない人は読み飛ばしても大丈夫です。

 

大きな袋の中に無数の玉が入っていることを想像して下さい。

それらの玉は白か黒のどちらかです。

そして、この袋からランダムにn個の玉を取り出します。

これらn個のサンプルから、袋の中の白玉の比率を推定してみます。

もう少し具体的にいうと、n個のサンプルに含まれる白玉の比率Ps から、袋の中に含まれる白玉の比率Pt を推定するということです。

 

まず、n個の玉にX1からXnの変数を割り当て、白なら1、黒なら0とします。

するとn個のサンプルに含まれる白玉の比率は、

Ps = (X1+X2+…+Xn)/n

になります。

なぜならXiは白なら1なので、X1+X2+…+Xnはそのまま白玉の数になるからです。

 

ここで中心極限定理を使います。

消費の合計である需要は正規分布になることを中心極限定理で説明する

 

この定理を使うと、nが十分に大きい時、Ps = (X1+X2+…+Xn)/nは平均Pt分散σ2/n正規分布で近似できます。

ここでσ2が必要になりますが、これはベルヌーイ分布の性質からわかります。

ベルヌーイ分布/二項分布/カテゴリ分布/多項分布の関係をまとめてみた。

 

ベルヌーイ分布とは成功する確率がp、失敗する確率が(1-p)の確率分布で、その平均はp、分散はp(1-p)になります。

今回の場合でいうと、袋の中に含まれる神のみぞ知る白玉の比率Ptがpになるので、分散はPt (1-Pt )になります。

従って、σ2/n = Pt (1-Pt )/nになります。

つまり、nが十分に大きい時、Ps = (X1+X2+…+Xn)/nは平均Pt分散Pt (1-Pt )/nの正規分布で近似できることになります。

 

そして平均から±1.96×標準偏差の範囲に95%のデータが含まれるので、下図のようになります。

 

そしてこれを式で表すと

Pt-1.96√(Pt (1- Pt)/n) < Ps < Pt+1.96√(Pt (1- Pt)/n)

となります。

知りたいのはPtなので、これが真ん中に来るように変形すると、

Ps-1.96√(Pt (1- Pt)/n) < Pt < Ps+1.96√(Pt (1- Pt)/n)

となりますが、Ptが両辺に残ってしまいます。

そこで、nが十分に大きい場合にはPs=Ptと見なせることを都合よく使って、置き換えてしまいます。

すると、

Ps-1.96√(Ps (1- Ps)/n) < Pt < Ps+1.96√(Ps (1- Ps)/n)

となり、これが母比率の95%信頼区間の区間推定の式になります。

 

開票率0%で当選確実がわかる理由

この式でサンプルから母比率を区間推定できるわけですが、使っているのはサンプルの比率Psとサンプルサイズnだけですね。

母集団の大きさは関係ないということです。

これは結構興味深いことで、選挙の開票率が1%しかないのに当選確実が出る理由がここにあります。

例えば有効投票数が1万人の選挙で、1%に当たる100票を開票した時点での得票率が65%だったとします。

この場合の95%信頼区間での母比率の区間推定は

0.65-1.96√(0.65*(1-0.65)/100) < Pt < 0.65+1.96√(0.65*(1-0.65)/100)

計算すると、

0.56 < Pt < 0.74

です。

つまりこの時点で95%以上の確率で過半数を獲得できることが分かったため、当選確実といえるのです。

 

更に有効投票数が100万人の選挙でも、100人開票した時点で65%の得票率であれば同じく当選確実です。

この場合は開票率0.01%ですね。

テレビでは開票率0%で当選確実と報道されるのです。

 

【Udemyの関連講座】

はじめての統計(推定・検定編) ~記述統計から推測統計へ!しっかり9時間、97レクチャーでデータ時代の入場券を手に入れる

データサイエンス時代にまず押さえるべきデータの扱い方・見方を扱った統計講座。データをどう要約し、分かりやすく伝えるのか(記述統計)から、そのデータから母集団について何が言えるのか(推測統計)まで、丁寧に統計的発想を身に付けます

いちばん理解できる統計学ベーシック講座その1【確率分布・推定・検定】

統計学の基礎を効率的に学べるベーシック講座です。統計学の入り口となる「確率分布・推定・検定」について豊富な図を用いて説明していきます。統計学や確率思考という一生モノのスキルを一緒に身につけましょう!