【カイ二乗検定はいつ使うの?】具体的な例を使ってExcelでわかりやすく

2024年5月19日

◆仕事や勉強の息抜きに。。。

カイ二乗検定が使える具体例

食品メーカーXは2つの物流センターから全国へ出荷しています。

商品カテゴリーごとの出荷傾向は次の通りです。

 

2つの物流センターでの出荷傾向に違いがあると言えるでしょうか?

 

カイ二乗検定とは?

カイ二乗検定は、条件の関連性を調べる検定です。

これだけ聞いても良く分かりませんね。

条件とは、この例ですと物流センターのことです。

物流センターの違いによって出荷傾向に差が出てくるのか?

逆に言うと、出荷傾向は物流センターの違いに関連性があるのか?

ということを検定します。

 

カイ二乗分布を使う手順をExcelで解説

出荷傾向のズレをカイ二乗値で表す

考え方自体は簡単です。

どの物流センターでも全く関係がないのであれば、出荷傾向は下表のように2つの物流センターで全く同じになるはずです。

 

これを期待値と呼びます。

でも実際には最初の表のようになっていますので、期待値とどれくらいズレがあるのかを計算してみましょう。

 

ズレを調べるには単に2つの数値の差を取るだけでなく、それを二乗する方が得策です。

単純な差だと、プラスになったりマイナスになったりするため、それらを足すと打ち消し合って意味がなくなるからです。

また、同じ5という差でも、10に対する5なのか、100に対する5なのかで意味合いが違ってきますので、期待値に対する二乗差の割合を計算してみます。

 

試しに、物流センター1における商品カテゴリーAの期待値からのズレを計算してみましょう。

(30-23.5)2/23.5 = 1.80

期待値との二乗差を期待値で割って求めます。

 

同様にすべて計算すると、次のようになります。

 

このズレをすべて足した合計は4.85になります。

これをカイ二乗値と呼びます。

 

カイ二乗分布のグラフと比べる

さて、このカイ二乗値はカイ二乗分布に従うことが知られています。

【カイ二乗分布をわかりやすく】使い方とExcelでのグラフの描き方

 

カイ二乗分布とはこのようなグラフです。

 

このように自由度によって形が変わります。

今回の例では、自由度は(3-1)×(2-1)=2になります。

先ほど計算したカイ二乗値4.85がカイ二乗分布に従うということは、下図において4.85が青のグラフに乗っているということです。

 

でも、これだけでは何のことか良く分かりませんね。

縦軸が確率密度だからです。

 

累積確率分布のグラフと比べる

これを累積確率を縦軸にして書き直すと、次のようになります。

 

こうすると意味が分かるのではないでしょうか?

このグラフは、xがゼロから大きくなるにつれて、累積確率が1に近づきます

大体、xが10くらいになると累積確率が1になっているのが分かります。

 

先ほど計算したカイ二乗値4.85ではどうでしょうか?

累積確率は大体0.9ですね。

このことは何を意味しているのでしょうか?

 

先ほど計算したカイ二乗値は、期待値からのズレを定量化したものです。

期待値というのは理想的な値ですので、実際の値は必ずズレがあります。

しかしそのズレは、0に近いほど発生頻度が多く、0から離れるに従って少なくなります。

先ほどの累積確率のグラフはそれを表したものです。

 

4.85の累積確率が90%ということは、実際の観測値と期待値とのズレが、0から4.85の間に90%収っているということです。

普通は95%までを正常なズレと見なします。

つまり、4.85のズレは通常でも見られるくらいの誤差範囲だということです。

よって、物流センターによって出荷傾向に差があるとは言えないということになります。

 

カイ二乗分布表を使えばもっと簡単

以上が、カイ二乗検定の意味しているところですが、実務上はもっと簡単に検定できます。

カイ二乗値4.85を計算するところまでは同じです。

計算したら、カイ二乗分布表を見ます。

>> カイ二乗分布表

 

先ほど、ズレの95%が収まる範囲を正常な範囲と見なすと言いましたが、これを統計用語ではこれを有意水準5%と言います。

ですので、下の表で有意水準0.05自由度2の交点を見つけます。

 

これは95%点のカイ二乗値が5.99であることを意味しています。

計算したカイ二乗値は4.85ですのでこれより小さい、つまり誤差範囲ということになります。

このようにカイ二乗値を計算したら、カイ二乗分布表と比べることによって簡単に検定ができます。

 

カイ二乗検定の上級編

カイ二乗検定は、サンプリングしてきたデータが正規分布ポアソン分布などの確率分布に適合するかどうかを判定することにも使えます。

安全在庫理論を適用する際に、そもそも出荷数が正規分布に従うのかどうかが問題になることがありますね。

そのような時に、正規分布への適合度をカイ二乗検定で調べることができます。

こちらで解説しています↓

【適合度のカイ二乗検定】出荷数は正規分布やポアソン分布になるの?