【F検定の使い方】需要の変動係数を検定してカテゴリー分けする方法をExcelで
2商品の需要のばらつきをF検定したい事例
ある消費財メーカーでは、需要のばらつきの大小によって、商品をいくつかのカテゴリーに分けようとしています。
例えば、下記の2つの商品は同じカテゴリーに分類すべきでしょうか?
それとも違うカテゴリーに分類すべきでしょうか?
F検定の使い方
F検定は2郡の分散(または標準偏差)が等しいかどうかを判定するのに用いられます。
2つの分散の比がF分布に従うことを利用しています。
一方の郡の分散をσ12、もう一方の郡の分散をσ22とすると、2つの分散の比はσ12/σ22となりますが、これがF分布に従うということです。
分散は不偏分散を使います。
F分布は次のようなグラフになります。
σ12/σ22が1の時、つまり2つの分散が等しい時には、50%の確率で2つの分散が等しいと言えます。
「2つの分散が同じなら、100%同じと言えるだろ!」
と思ってしまいますが、その標本の時だけたまたまのまぐれで同じ分散値になっているだけかもしれないので、慎重な判断をします。
σ12/σ22が2の時、つまり片方の分散がもう一方の2倍の時は、同じ分散と言える可能性が7%まで減少します。
ちなみに、この50%や7%のことを統計用語で右側確率と言います。
z検定やt検定などの他の検定でもそうですが、右側確率が5%まで減少した場合に有意差あり、つまり2つの分散はもはや同じとは言えないと判断します。
F検定で需要の分散を検定する
それではF検定を使って、商品Aと商品Bの需要の分散が等しいといえるかどうかを検定してみましょう。
分散はExcel関数VARで求められます。
商品Aの分散は59,708、商品Bのそれは146,004になりました。
よって、2つの分散の比σ22/σ12は2.45になります。
先ほどのF分布のグラフで見ると、たいぶ右側にあり、そうなる確率はかなり低そうですね。
たぶん5%より低いと思いますが、念のため調べてみましょう。
これはExcel関数で計算できます。
=F.DIST(F値、分子の自由度、分母の自由度、TRUE)
=F.DIST(2.45,19,19,TRUE)
=0.97
(F値というのは2つの分散の比のことです)
よって、右側確率(F値が2.45になる確率)は3%です。
つまり、5%より低いということになり、もはやこの2つの分散は同じとは言えないことになります。
変動係数で検定する方が実用的
以前の記事で、ばらつきを比較する時は分散や標準偏差ではなく、変動係数で比較すべしというお話しをしました。
変動係数(CV)で何がわかるの?標準偏差との違いは何?単位はないの?
今回も変動係数で検定してみましょう。
変動係数は標準偏差/平均で求められます。
これは言い換えれば、平均1にした時の標準偏差です。
ですから、これを二乗すれば平均1の時の分散になります。
2つの分散を比べる時に、両方とも平均1の分散に変換して比べれば問題ありませんので、F検定を使えます。
ExcelでF値を計算すると次のようになります。
先ほどと同じようにして、このF値1.46に対応する右側確率を求めてみると、
=F.DIST(F値、分子の自由度、分母の自由度、TRUE)
=F.DIST(1.45,19,19,TRUE)
=0.79
となり、21%も起こり得る可能性があることが分かります。
5%よりも遥かに大きな確率ですので、2つの変動係数は同じと見なせます。
従って、この2つの商品は同じカテゴリーに分類すべきということになります。
まとめ
F検定は2つの郡の分散が等しいかどうかを調べるのに使われます。
でも、この目的で使う機会は余りありません。
2つの郡の平均が同じでないと、分散を比べても意味がないからです。
代わりに、変動係数を比べるのには意味があります。
変動係数は平均を1にした標準偏差ですので、二乗すれば分散になりF検定が使えます。
但し、ここで使う標準偏差は不偏標準偏差、分散は不偏分散です。
【標準偏差はnで割るの?n-1で割るの?】物流における適用例も紹介