【区間推定の使い方】バイオディーゼルに変えた場合の燃費を区間推定する

2023年10月18日

◆仕事や勉強の息抜きに。。。

区間推定が使える具体例

物流会社Aでは、トラックに使う燃料をB5(バイオディーゼル 5%、石油ディーゼル 95%)からB20 (バイオディーゼル 20%、石油ディーゼル 80%)に変更することを検討しています。

そこで150台の保有トラックの中からランダムに15台を選んでB20燃料を使ってもらい、燃費を1か月間テストしました。

結果は下記の通りです。

 

平均は2.98と出ましたが、さすがにこれだけのデータで断定するのは無理があります。

いくらからいくらの間と推定するのが適当でしょうか?

 

このような推定を区間推定と言いますが、区間推定についての解説は既に沢山書かれていますので、ここでは少し違う角度から解説してみます。

直球の解説で分からなかった人の参考になれば幸いです。

 

ヒストグラムにする

まず、このようなデータは正規分布に従うのが常です。

実際に、ヒストグラムを描いてみると、このように正規分布の形になります。

 

でも、統計的にはnが十分に大きくないと正規分布に従わないと言われています。

この例ではnは15です。

nがどのくらい大きければ「十分に大きい」と言えるのかについては明確な基準はありませんが、概ね30以上と言われています。

 

t分布で近似する

ではnが大きくない場合にはどうすれば良いのか?

そのためにあるのがt分布です。

 

これはt分布のグラフをエクセルで描いたものですが、正規分布によく似ています。

違うのは、自由度によって形が異なり、自由度が小さいほど横に広がっていることです。

自由度とは大雑把に言うとデータ数です。

データ数が少ないということは、それだけ確信度が低いということなので、データのばらつきが大きい、つまりグラフが横に広がるというわけです。

データ数が少ないほど、自信のない分布になるのです。

 

この例では自由度は14です。

なぜ14なのか説明します。

データ数、つまりnは15でしたね。

データ数が15個あると、14個までは自由に数を変えられますが、最後の1個は合計が決まっていたら自動的に決まってしまいます。

 

部屋数15室のホテルがあるとして、14組の客までは好きな部屋を選ぶ自由度があるけれども、最後の1組は残りの部屋に自動的に決まってしまうようなイメージです。

 

このように、自由に選べる数を自由度といい、通常、データ数-1になります。

 

先ほどn(データ数)が概ね30以上なら正規分布に従うと言いましたが、試しに自由度30のt分布のグラフと正規分布のグラフを比較してみましょう。

 

このように、ほぼ一致します。

nが30以上の場合は正規分布を使っていいけども、それより小さい場合はt分布を使いましょうという理由がここにあります。

 

平均値の標準偏差を求める

ここでさきほどの例に戻りましょう。

15台の燃費の平均は2.98でしたが、分散も求めてみましょう。

分散にはnで割る標本標準偏差n-1で割る不偏標準偏差の2種類があります。

【標準偏差はnで割るの?n-1で割るの?】物流における適用例も紹介

 

ここでは不偏標準偏差を使います。

不偏標準偏差はエクセルのSTDEV関数で簡単に計算できます。

計算してみると0.24になりました。

 

でもこれは15個のデータのばらつきを表す標準偏差です。

私たちが知りたいのは平均値のばらつきの程度です。

15個のデータの標準偏差をsとすると、その平均値の標準偏差はs/√15になります。

これは分散の加法性から分かります。

【分散の加法性とは?】足し算だけでなく平均値にも応用する方法を解説

 

15個のデータをx1、x2、、、x15とします。

すると15個の平均値は(x1+x2+ … +x15)/15です。

この平均値の分散は

V{(x1+x2+ … +x15)/15}

= (1/15)2V(x1+x2+ … +x15)

= (1/15)2 {V(x1)+ V(x2)+ … +V(x15)}

= (1/15)2 V(x1)×15

= V(x1) / 15

分散の平方根が標準偏差ですので、平均値の標準偏差はs/√15になります。

先ほど標準偏差sは0.24でしたので、平均値の標準偏差は0.062です。

 

t分布表からp値を求める

ここで、t分布表を見ます。

>> t分布表

自由度14の有意水準5%のp値は2.14です。

 

これはグラフでいうと、次のことを意味します。

 

95%信頼区間を求める

しかし、このグラフは正規化してあり、標準偏差が1の場合のt分布です。

今回のデータでは標準偏差は0.062ですので、幅が0.062倍されます。

つまりこういうことです。

 

従って、燃費は平均2.98±0.13であることが、確信度(信頼区間)95%で言えることになります。

意外と、精度の良い数字でした。

 

区間推定はベイズ推定でやっても同じ結果が得られます。

分散既知の区間推定をベイズ推定でやって同じ結果になるか比較してみた