【具体例でわかりやすく!】カイ二乗検定は何に使えるの?|出荷傾向の区分けを実演

2021年7月29日

食品メーカーXは2つの物流センターから全国へ出荷しています。

商品カテゴリーごとの出荷傾向は次の通りです。

 

2つの物流センターで違いがあると言えるでしょうか?

 

カイ二乗値を計算する

カイ二乗検定は、条件の関連性を調べる検定です。

条件とは、この例ですと物流センターの違いです。

物流センターの違いによって、出荷傾向に差が出てくるのか(物流センターの違いに関連があるのか)ということを検定します。

 

考え方自体は簡単です。

どの物流センターでも全く関係がないのであれば、出荷傾向は下表のように2つの物流センターで全く同じになるはずです。

 

これを期待値と呼びます。

でも実際には最初の表のようになっていますので、期待値とどれくらいズレがあるのかを計算してみましょう。

 

ズレを調べるには単に2つの数値の差を取るだけでなく、それを二乗する方が得策です。

単純な差だと、プラスになったりマイナスになったりするため、それらを足すと打ち消し合って意味がなくなるからです。

また、同じ5という差でも、10に対する5なのか、100に対する5なのかで意味合いが違ってきますので、期待値に対する二乗差の割合を計算してみます。

 

試しに、物流センター1における商品カテゴリーAの期待値からのズレを計算してみましょう。

(30-23.5)2/23.5 = 1.80

期待値との二乗差を期待値で割って求めます。

 

同様にすべて計算すると、次のようになります。

 

このズレをすべて足した合計は4.85になります。

これをカイ二乗値と呼びます。

 

カイ二乗分布のグラフと比べる

さて、このカイ二乗値はカイ二乗分布に従うことが知られています。

カイ二乗分布とはこのようなグラフです。

 

このように自由度によって形が変わります。

今回の例では、自由度は(3-1)×(2-1)=2になります。

先ほど計算したカイ二乗値4.85がカイ二乗分布に従うということは、下図において4.85が青のグラフに乗っているということです。

 

でも、これだけでは何のことか良く分かりませんね。

縦軸が確率密度だからです。

 

これを累積確率を縦軸にして書き直すと、次のようになります。

 

こうすると意味が分かるのではないでしょうか?

このグラフは、xがゼロから大きくなるにつれて、累積確率が1に近づきます

大体、xが10くらいになると累積確率が1になっているのが分かります。

 

先ほど計算したカイ二乗値4.85ではどうでしょうか?

累積確率は大体0.9ですね。

このことは何を意味しているのでしょうか?

 

先ほど計算したカイ二乗値は、期待値からのズレを定量化したものです。

期待値というのは理想的な値ですので、実際の値は必ずズレがあります。

しかしそのズレは、0に近いほど発生頻度が多く、0から離れるに従って少なくなります。

先ほどの累積確率のグラフはそれを表したものです。

 

4.85の累積確率が90%ということは、実際の観測値と期待値とのズレが、0から4.85の間に90%収っているということです。

普通は95%までを正常なズレと見なします。

つまり、4.85のズレは通常でも見られるくらいの誤差範囲だということです。

よって、物流センターによって出荷傾向に差があるとは言えないということになります。

 

実務での検定方法

以上が、カイ二乗検定の意味しているところですが、実務上はもっと簡単に検定できます。

カイ二乗値4.85を計算するところまでは同じです。

計算したら、カイ二乗分布表を見ます。

>> カイ二乗分布表

 

先ほど、ズレの95%が収まる範囲を正常な範囲と見なすと言いましたが、これを統計用語ではこれを有意水準5%と言います。

ですので、下の表で有意水準0.05自由度2の交点を見つけます。

 

これは95%点のカイ二乗値が5.99であることを意味しています。

計算したカイ二乗値は4.85ですのでこれより小さい、つまり誤差範囲ということになります。

 

このようにカイ二乗値を計算したら、カイ二乗分布表と比べることによって簡単に検定ができます。