分散既知の区間推定をベイズ推定でやって同じ結果になるか比較してみた
ベイズ推定で区間推定ができるのか?
古典統計学に出てくる区間推定は、母集団の分散が既知の場合には95%信頼区間で、
標本平均±1.96×√(母分散/標本サイズ)
で計算できました。
分散が未知の場合の区間推定についてはこちら。
【区間推定の使い方】バイオディーゼルに変えた場合の燃費を区間推定する
【区間推定の具体例】トラックに付いているタイヤの摩耗を区間推定する
一方、ベイズ推定では新しい情報が得られたら、それを尤度とすることにより、
事後確率=事前確率×尤度
の式で確率が更新されます。
従って、標本サイズが10とすれば、10個の新しい情報により10回確率が更新できるという見方もできますね。
となると、ベイズ推定で区間推定してみて、その結果が古典統計学の区間推定の結果と同じになるかを確かめてみたくなりますね。
そこで、下記の事例でこれを確かめてみましょう。
具体例でベイズ推定による区間推定をしてみる
新しく購入した10tトラックの燃費を知るために10日間の燃費記録を取ったところ、次のようになりました。
3.92、3.43、3.03、3.60、2.96、3.98、2.92、2.96、3.56、3.80
分散σ2は0.2と分かっています。
この時、母平均の95%信頼区間を2つのやり方で求めてみましょう。
古典統計学による区間推定
標本平均を計算すると3.42ですので、古典統計学の区間推定では、
3.42±1.96×√(0.2/10)
=3.14~3.70
になります。
ベイズ推定による区間推定
これをベイズ推定でやってみます。
まず、事前分布は全く情報がないものとして一様分布とします。
xの範囲を3.42±5とすれば、その間で一様に0.1、もし3.42±10とすれば、その間で一様に0.05を取る関数になりますが、いずれにせよ定数になりますのでaとします。
そして
事後確率=事前確率×尤度
で確率が更新されますので、1日目の燃費データを得た後の事後確率は次のように計算できます。
1日目の事後確率=事前確率×1日目の尤度
=a×N(3.92,0.2)
ここで、N(3.92,0.2)は平均が3.92、分散が0.2の正規分布で、次式で表されます。
f(x)=1/SQRT(2π×0.2)×Exp{-(x-3.92)2/(2×0.2)}
この一日目の事後確率が2日目の事前確率になりますので、2日目の事後確率は次のように計算できます。
2日目の事後確率=1日目の事後確率×2日目の尤度
=a×N(3.92,0.2)× N(3.43,0.2)
同様にすると、10日目の事後確率は次のように計算できます。
10日目の事後確率=a×N(3.92,0.2)× N(3.43,0.2)×...×N(3.80,0.2)
ここで正規分布同士の積はまた正規分布になり、正規分布f1(x)の平均がμ1、標準偏差がσ1、正規分布f2(x)の平均がμ2、標準偏差がσ2の場合、それらを掛け算してできた正規分布f12(x)の平均はμ12は、
μ12 = {(μ1/σ12)+(μ2/σ22)} / {( 1 /σ12)+(1 /σ22)}
分散σ122は、
σ122 = 1 / {( 1 /σ12)+(1 /σ22)}
になることを使います。
【正規分布を掛け算したら標準偏差は?】Excelで計算してグラフ表示する
2つの正規分布の分散が等しい場合σ1とσ2は等しいので、上式は次のように簡略化されます。
μ12 = (μ1+μ2) / 2
σ122 = σ12 / 2
従って分散がすべて等しい場合、10個の正規分布の積は平均と分散は次のようになります。
μ = (μ1+μ2+μ3+ … +μ10) / 10
σ2 = σ12 / 10
今回の例に当てはめると、
μ = (μ1+μ2+μ3+ … +μ10) / 10 = 3.42
σ2 = σ12 / 10 = 0.02
となりますね。
つまり、10日後の事後確率はN(3.42,0.02)の正規分布になりました。
正規分布の両側5%点は1.96ですので、
3.42±1.96×0.02
=3.14~3.70
が95%信頼区間となります。
どちらの方法でも同じ区間推定結果
古典統計学の区間推定と同じ結果になりましたね。
このように事前分布を全く情報がない一様分布とすると、ベイズ推定と古典統計学の区間推定は同じ結果になります。
ただし、事前分布をもっと絞った分布、例えば今回の場合、会社の他の10tトラックの燃費を平均とする事前分布にすると、ベイズ推定の方が少し幅の狭い区間推定になります。