改善効果をz検定で測定する

2021年6月18日

何かやり方を変えた時には、その効果を測定したいものです。

例えば、作業台の高さを作業し易いように変えたとしましょう。

変える前の処理数の平均は1時間当たり100個、標準偏差は35個でした。

変えた後、30時間分のデータを採ったら、1時間当たり110個に増えました。

これは効果があったと言えるでしょうか?

 

この疑問に統計的に答えてくれるのが「検定」です。

検定には色々ありますが、今回は一番基本的なz検定について解説します。

 

統計で言う検定には流儀があります。

それは、

  1. 差は誤差範囲であるという仮説を立てる
  2. 差の中に母集団データの何%が入るかを計算する
  3. 95%未満なら「差がない」、95%以上なら「差がある」

という考え方をすることです。

先の例で言うと、

  1. 110個と100個の差10個は誤差範囲である(=効果がなかった)という仮説を立てる
  2. 100個±10個の中に、母集団の何%のデータが入るか計算する
  3. 95%未満なら「差がない」(=効果がなかった)、95%以上なら「差がある」(=効果があった)

という風に考えます。

 

具体的に見ていきましょう。

1は仮説を立てるだけなので問題ないでしょう。

問題は2です。

ここで母集団とは、改善前のデータのことです

平均は100個、標準偏差は35個です。

以前の記事で、データが正規分布に従うなら、平均から標準偏差何個分離れているかが分かれば、そのデータと平均との間に全体の何%のデータが含まれているかが分かることを解説しました。

【参考】

【物流数学の基礎】標準正規分布表の使い方

 

具体的には下記の式からzを求めて、標準正規分布表で検索すれば求まるのでした。

z = (x – μ) / σ

μ:母集団の平均

σ:母集団の標準偏差

 

検定でもこの原理を使います。

違うのは、標準偏差σを√nで割ることだけです。

冒頭の例だとn=30です。

 

なぜ√nで割るのかと言うと、サンプル平均の分布を考えているからです。

サンプルデータ自体の分散はσ2(標準偏差はσ)ですが、n個のサンプルデータの平均の分散なのでσ2/n(標準偏差はσ/√n)となるのです。

 

改めてzを計算してみると、次のようになります。

z = (x – μ) / (σ/√n) = (110 – 100) / (35/ √30) = 1.56

 

これは改善後のデータは改善前のデータから、標準偏差1.56個分離れていることを意味します。

zが分かったので、標準正規分布表を検索してみましょう。

 

これから、xとμの間には44%のデータが含まれることが分かります。

これは片側だけですので、両側を考えると、μからx離れた範囲に全体の88%のデータが含まれていることが分かります。

 

μは改善前の生産性の平均値ですので、この割合(88%)が小さいほど、改善後の生産性が改善前の生産性と近いことを意味します。

つまり、誤差範囲だとします。

では、どれくらいまでを誤差範囲と言うのでしょうか?

 

検定では通常95%までを誤差範囲ということにしています。

つまり、平均の周り95%データは正常のばらつきの範囲内、それ以外は「滅多に起こらないこと」、つまり違う母集団のデータと見なすのです。

 

従って、冒頭の例では、

作業改善によって、生産性が100個/時から110個/時に上がったが、残念ながら誤差範囲でした。生産性は上がったとは言えません

という結論になるのでした。

 

まとめ

少し意外な結果だったのではないでしょうか?

普通は、10%も変わっていれば効果があったと見なしてしまいそうです。

 

この例では2つのトリックがあります。

1つは母集団、つまり改善前の生産性の標準誤差が35個もある点です。

平均±標準偏差の中には全体の68%のデータが含まれますので、135個以上または65個未満のデータが32%含まれるほど、データがばらついています。

そのため、10個の差が誤差範囲と見なされてしまうのです。

 

2つめは、改善後のデータ数が30しかないことです。

このサンプルサイズは小さいほど不確かなデータということになりますので、10個という差が誤差範囲と見なされる確率が大きくなります。

現に、サンプルサイズが50なら改善したという結果になります。

 

しかし、統計学的には今回の条件では間違いなく誤差範囲、つまり改善効果があるとは言えないという結果になります。

物流でも統計が必要であることが、お分かりいただけると思います。

 

【参考】

【物流数学の基礎】物流に「確率・統計」は必要か?