【対応がある2郡】改善効果をt検定で検証する方法を具体例でわかりやすく解説します。

2021年7月26日

前回の記事では、z検定を使って工程改善で生産性が上がったかどうかを判定する方法を紹介しました。

>> 改善効果をz検定で測定する

 

実はz検定を使うには前提条件がいるのですが、話しがややこしくしなるため触れませんでした。

その前提条件とは、母集団の分散が分かっていることと、サンプルサイズが大きいことです。

 

前回の事例は次のようなものでした。

工程改善前の処理数の平均は1時間当たり100個、標準偏差は35個でした。

工程改善後、30時間のデータを採ったら、1時間当たり110個に増えました。

これは効果があったと言えるでしょうか?

 

母集団とはこの例で言うと、工程改善前の生産性データのことです。

分散とは標準偏差の2乗です。

また30時間分のサンプルデータを採りましたので、サンプルサイズは30です。

この例では工程改善前のデータが十分にあって、平均と分散が分かっていて、サンプルサイズも比較的大きかったため、z検定が使えたのです。

 

サンプルサイズは30でした。

このサンプルサイズはz検定が使えるギリギリの線で、これより少ない場合には使えません。

 

改善後のサンプルの統計量が母集団の正規分布から外れているかどうかを判定するため、母集団の分散が不明だったり、サンプルサイズが小さすぎるとz検定は使えないのです。

しかし実際には、これらの前提条件が満たせないことの方が多いと言えます。

その場合に使えるのがt検定です。

 

t検定には

  • 対応がある2郡のt検定
  • 対応がない2郡のt検定

の2種類があります。

今回は、対応がある2郡のt検定について解説します。

 

次のような場面を想定しましょう。

 

A社は出荷のピッキング作業を、ハンディターミナルを使って行っています。

そこにB社が新型ハンディターミナルを提案してきました。

B社はこれを使えば、遠くのバーコードも素早く読み込めるため、20%は生産性が向上すると主張しています。

疑い深いA社は、10人の人に旧型、新型のハンディターミナルを1日ずつ使ってもらって実験することを提案します。

結果は下表のようになりました。

新型を使って生産性が上がったと言えるでしょうか?

 

この事例ではz検定は使えません。

与えられているのはサンプルサイズ10のデータが2つだけで、母集団の統計データがないからです。

 

そこで、まずは平均を比べてみましょう。

旧型ハンディを使った時の生産性の平均は81、新型では102とすぐに計算できます。

B社が主張するように、生産性が20%上がっているように見えます

 

しかし、これはたった10人分のデータです。

たまたま良くなっただけかもしれません。

このように、サンプルサイズが小さい時に、2郡の平均を比べるのは慎重にならざるを得ません。

t検定では次のように考えます。

 

生産性のを10人それぞれについて計算すると、下表のようになります。

 

このについて10人の平均を計算すると21になります。

差がない(新型ハンディの効果がない)とすると、0ですね。

検定ではまず、21は偶然に起こったばらつきの範囲内(誤差範囲)であるという仮説を立てます。

 

仮説を検証するために、z検定では次のz値を計算しました。

z = (x – μ) / (σ/√n)

μ:母集団の平均

σ:母集団の標準偏差

 

t検定では次のt値を計算します。

t = x / (s /√n)

x:差の平均

s:差の不偏標準偏差

>> 不偏標準偏差とは

 

z値との違いは、σの代わりにsを使っているだけです。

母集団の標準偏差σが分からないため、仕方なしにサンプルの不偏標準偏差sを代わりに使うのです。

その代わりに、t値は正規分布には従いません。

代わりにt分布に従います。

t分布は正規分布と同じような形をしていますが、若干縦に潰れた形をしています。

 

さて上の例に当てはめると、tは次のように計算されます。

t = x / (s /√n)= 21 / (43 /√10)= 1.55

 

これから、平均21は0から標準偏差1.55個分だけ離れていることが分かります。

 

次に標準偏差何個分までなら偶然に起こった範囲と見なせるか(誤差の範囲か)を決定します。

そのためにt分布表を使います。

t分布表を見るには、有意水準自由度を予め決めておく必要があります。

 

有意水準とは、偶然のレベルを確率で定義したものです。

正規分布は平均の周りにデータがばらついていますが、平均から離れるほど確率は低くなります。

確率が小さいということは、同じ母集団のデータとは言えないということです。

そのしきい値となる確率のことを有意水準と言います。

通常は5%とします。

 

次に自由度とは、自由に取れるデータ数のことです。

どういうことかを説明するために、まずzを求める式を見てみましょう。

z = (x – μ) / (σ/√n)

この中でμとσは母集団の平均と標準偏差ですので、決まっています。

nもサンプルサイズですので決まっています。

xだけはサンプルサイズの数だけ変数として変わる可能性があります。

つまり、サンプルサイズが30であれば、30個のデータを自由に選べます。

これを自由度30と言います。

 

これに対してtは

t = x / (s /√n)

で計算されます。

この中でnはサンプルサイズで定数ですが、xは平均、sは不偏標準偏差ですので、サンプルによってその都度変わります。

先ほど書きましたようにxはサンプルサイズがそのまま自由度になりますが、sはサンプルサイズ-1の自由度になります。

(不偏標準偏差はn-1で割ることを思い出して下さい)

従って、小さい方に合わせてtの自由度はn-1となります。

この例ではサンプルサイズが10ですので9になります。

 

これでt分布表を検索すると、次のようになります。

 

有意水準5%と自由度9の交点は、2.26です。

つまり、平均から標準偏差2.26個分離れたデータまでは偶然に起こったばらつき(誤差範囲)と見なすが、それ以上離れたデータは違うデータと見なすということです。

 

21は平均0から標準偏差1.55個分しか離れていませんでしたね。

従って、21は0から偶然にばらついて起こった値(誤差範囲)と見なせるわけです。

 

つまり、B社の新型ハンディターミナルは、この結果からでは効果があるとは言えないという結論になるのでした。