【具体例でわかりやすく!】区間推定は何に使えるの?|燃費推定で実演します。

2021年8月8日

物流会社Aでは、トラックに使う燃料をB5(バイオディーゼル 5%、石油ディーゼル 95%)からB20 (バイオディーゼル 20%、石油ディーゼル 80%)に変更することを検討しています。

そこで150台の保有トラックの中からランダムに15台を選んでB20燃料を使ってもらい、燃費を1か月間テストしました。

結果は下記の通りです。

 

平均は2.98と出ましたが、さすがにこれだけのデータで断定するのは無理があります。

いくらからいくらの間と推定するのが適当でしょうか?

 

このような推定を区間推定と言いますが、区間推定についての解説は既に沢山書かれていますので、ここでは少し違う角度から解説してみます。

直球の解説で分からなかった人の参考になれば幸いです。

 

まず、このようなデータは正規分布に従うのが常です。

実際に、ヒストグラムを描いてみると、このように正規分布の形になります。

 

でも、統計的にはnが十分に大きくないと正規分布に従わないと言われています。

この例ではnは15です。

nがどのくらい大きければ「十分に大きい」と言えるのかについては明確な基準はありませんが、概ね30以上と言われています。

 

ではnが大きくない場合にはどうすれば良いのか?

そのためにあるのがt分布です。

 

これはt分布のグラフをエクセルで描いたものですが、正規分布によく似ています。

違うのは、自由度によって形が異なり、自由度が小さいほど横に広がっていることです。

自由度とは大雑把に言うとデータ数です。

データ数が少ないということは、それだけ確信度が低いということなので、データのばらつきが大きい、つまりグラフが横に広がるというわけです。

データ数が少ないほど、自信のない分布になるのです。

 

この例では自由度は14です。

なぜ14なのか説明します。

データ数、つまりnは15でしたね。

データ数が15個あると、14個までは自由に数を変えられますが、最後の1個は合計が決まっていたら自動的に決まってしまいます。

 

部屋数15室のホテルがあるとして、14組の客までは好きな部屋を選ぶ自由度があるけれども、最後の1組は残りの部屋に自動的に決まってしまうようなイメージです。

 

このように、自由に選べる数を自由度といい、通常、データ数-1になります。

 

先ほどn(データ数)が概ね30以上なら正規分布に従うと言いましたが、試しに自由度30のt分布のグラフと正規分布のグラフを比較してみましょう。

 

このように、ほぼ一致します。

nが30以上の場合は正規分布を使っていいけども、それより小さい場合はt分布を使いましょうという理由がここにあります。

 

ここでさきほどの例に戻りましょう。

15台の燃費の平均は2.98でしたが、分散も求めてみましょう。

分散にはnで割る標本標準偏差n-1で割る不偏標準偏差の2種類があります。

>> 【物流数学の基礎】標準偏差はnで割るの?n-1で割るの?

 

ここでは不偏標準偏差を使います。

不偏標準偏差はエクセルのSTDEV関数で簡単に計算できます。

計算してみると0.24になりました。

 

でもこれは15個のデータのばらつきを表す標準偏差です。

私たちが知りたいのは平均値のばらつきの程度です。

15個のデータの標準偏差をsとすると、その平均値の標準偏差はs/√15になります。

これは分散の加法性から分かります。

>> 分散の加法性を平均値に適用する

 

15個のデータをx1、x2、、、x15とします。

すると15個の平均値は(x1+x2+ … +x15)/15です。

この平均値の分散は

V{(x1+x2+ … +x15)/15}

= (1/15)2V(x1+x2+ … +x15)

= (1/15)2 {V(x1)+ V(x2)+ … +V(x15)}

= (1/15)2 V(x1)×15

= V(x1) / 15

分散の平方根が標準偏差ですので、平均値の標準偏差はs/√15になります。

先ほど標準偏差sは0.24でしたので、平均値の標準偏差は0.062です。

 

ここで、t分布表を見ます。

>> t分布表

自由度14の有意水準5%のp値は2.14です。

 

これはグラフでいうと、次のことを意味します。

 

しかし、このグラフは正規化してあり、標準偏差が1の場合のt分布です。

今回のデータでは標準偏差は0.062ですので、幅が0.062倍されます。

つまりこういうことです。

 

従って、燃費は平均2.98±0.13であることが、確信度(信頼区間)95%で言えることになります。

意外と、精度の良い数字でした。

 

区間推定はベイズ推定でやっても同じ結果が得られます。

>> 【ベイズ統計学 vs 古典統計学】区間推定で同じ結果になるか比較してみた【ベイズ統計学 vs 古典統計学】区間推定で同じ結果になるか比較してみた