【適合度のカイ二乗検定】出荷数は正規分布やポアソン分布になるの?

2023年10月17日

安全在庫理論は出荷数が正規分布に従うことを前提にしています。

しかし、「うちの出荷数は正規分布になんかならんよ!」という御大も一定数存在するので、そんな御大を納得させる方法を2つ紹介しました。

1つは、どんな滅茶苦茶な分布でも、そこからサンプリングした複数データの平均値は正規分布に従うという中心極限定理を使う方法です。

もう1つは、たとえ取引先1社への出荷数が正規分布でなくとも、複数社分の出荷数をまとめれば正規分布になることをモンテカルロシミュレーションで示す方法です。

 

でも出荷数が極端に少ない場合には確かに正規分布にはならないので、その場合には出荷数をまとめる期間を長くして正規分布になるようにしたり、ポアソン分布に近似して違う方法で安全在庫を求めたりします。

 

今回はもっと直接的に出荷数が正規分布ポアソン分布になっていることを示すやり方を紹介します。

そのためにカイ二乗検定を使います。

カイ二乗検定は条件の関連性を調べるのに使えることを、下記の記事で紹介しました。

【カイ二乗検定はいつ使うの?】具体的な例を使ってExcelでわかりやすく

 

実はこのカイ二乗分布を使うカイ二乗検定にはもっと汎用性があって、確率分布への適合度も調べることもできます。

確率分布には正規分布やポアソン分布等いろいろありますが、今、手元にあるデータがこれらの確率分布に従っているかどうかを検定できるのです。

それではまず、出荷数のデータが正規分布に従っているかどうかをカイ二乗検定してみましょう。

 

【ゆっくり解説】Youtubeはじめました!

正規分布への適合度を検定する

ある商品について4月1日から6月30日の出荷数を調べたら、次のようになりました。

この91個のデータが正規分布に従っているかどうかを検定してみます。

 

ヒストグラムを作る

まずはこのデータをヒストグラムで表します。

ヒストグラムの作り方については、こちらの記事で解説しています↓

Excelでヒストグラムを描く二通りの方法。正規分布の近似曲線も併せて表示!

 

まずは階級にわけて、それぞれの階級に何個のデータが含まれるかを調べます。

91個のデータの最小値が1283で、最大値が5424でしたので、0から1000間隔で5999まで6階級にわけてみましょう。

FREQUENCY関数を使えば、次のように各階級に含まれるデータ数を数えることができます。

 

これを棒グラフにすれば、次のようなヒストグラムができあがります。

 

正規分布の期待値を計算する

次に各階級の期待値を計算します。

カイ二乗検定ではデータと期待値とのズレを検定するため、期待値を求めておく必要があります。

今回は、

データが正規分布に従っているかどうかを検定したい

ため、

正規分布なら各階級のデータ数はいくつになるか

を求めれば、それが期待値になります。

 

正規分布は平均標準偏差が決まれば一意に決まるので、まずは91個のデータから平均と標準偏差を求めておきます。

 

すると、期待値は次のように計算できます。

 

カイ二乗値を求める

ここまで求まれば、データと期待値とのズレが計算できます。

このズレは、

ズレ=(データー期待値)2÷期待値

で計算します。

そして、その合計がカイ二乗値です。

次のようにして計算できます。

 

カイ二乗分布表の上側5%点と比べる

カイ二乗値は10.93601になりました。

これが確率の揺らぎによるズレの範囲なのか、そうでないのかを調べます。

それにはカイ二乗分布表を見ますが、その前に自由度を調べます。

今回は階級の数が6なので、自由度は6-1で5になります。

カイ二乗分布表で自由度5と上側5%点の交点を調べると11.07です。

 

カイ二乗値である10.93601は11.07よりも小さいので、このズレは確率的な揺らぎの範囲であるとみなすことができます。

つまり、この91個の出荷数のデータは正規分布に従うとみなすことができます。

データと期待値をまとめてヒストグラムにすると、次のようになります。

なるほど、よく合致していますね。

 

ポアソン分布への適合度を検定する

先程とは違う商品について4月1日から6月30日の出荷数を調べたら、次のようになりました。

この91個のデータがポアソン分布に従っているかどうかを検定してみます。

 

ヒストグラムを作る

まずはこのデータをヒストグラムで表します。

ポアソン分布は離散分布なので、それぞれの確率変数(出荷数)のデータ数を数えるだけで表を作れます。

 

これを棒グラフにすると、次のようなヒストグラムができあがります。

 

ポアソン分布の期待値を計算する

次に各階級の期待値を計算します。

先程と同じように計算すると、次のようになります。

 

カイ二乗値を求める

ここまで求まれば、データと期待値とのズレが計算できます。

次のように計算できます。

 

カイ二乗分布表の上側5%点と比べる

カイ二乗値は5.72619になりました。

これが確率の揺らぎによるズレの範囲なのか、そうでないのかを調べます。

それにはカイ二乗分布表を見ますが、その前に自由度を調べます。

今回は階級の数が8なので、自由度は8-1で7になります。

カイ二乗分布表で自由度7と上側5%点の交点を調べると14.07です。

 

カイ二乗値である5.72619は14.07よりも全然小さいので、このズレは確率的な揺らぎの範囲であるとみなすことができます。

従って、この91個の出荷数のデータはポアソン分布に従うとみなすことができます。

データと期待値をまとめてヒストグラムにすると、次のようになります。

これもよく合致していますね。

 

まとめ

カイ二乗検定については、カイ二乗検定の使い方を具体例を使ってわかりやすく解説します。条件の関連性を調べるやり方を紹介しましたが、今回のやり方はその拡張版といえます。

条件の関連性を調べる時には、条件によらず同じ期待値を設定しました。

そうすることにより、条件に関係がないことがいえるためです。

ちなみに条件の関連性の検定とは、独立性の検定ともいわれます。

 

これに対して、今回は階級ごとに確率分布に応じた期待値を設定しました。

「階級」と「条件」とはこの場合同じことをいっていますので、条件の関連性の検定は

一様分布との適合度の検定

ともいえます。

このようにカイ二乗検定は確率分布への適合度を調べる検定で、条件の関連性独立性を調べる検定は、その特殊ケースといえます。

 

【Udemyの関連講座】

はじめての統計(推定・検定編) ~記述統計から推測統計へ!しっかり9時間、97レクチャーでデータ時代の入場券を手に入れる

データサイエンス時代にまず押さえるべきデータの扱い方・見方を扱った統計講座。データをどう要約し、分かりやすく伝えるのか(記述統計)から、そのデータから母集団について何が言えるのか(推測統計)まで、丁寧に統計的発想を身に付けます

いちばん理解できる統計学ベーシック講座その1【確率分布・推定・検定】

統計学の基礎を効率的に学べるベーシック講座です。統計学の入り口となる「確率分布・推定・検定」について豊富な図を用いて説明していきます。統計学や確率思考という一生モノのスキルを一緒に身につけましょう!