改善効果をt検定で測定する(Welchのt検定)

2021年6月18日

前回の記事では、t検定を使って新型ハンディターミナルの効果があるかどうかを判定する方法を紹介しました。

10人のスタッフに1日ずつ使ってもらって、生産性の差がないと言えるかどうかを判定するために使いました。

この時は、10人のスタッフ全員が2種類のハンディターミナルを使いましたので、それぞれの人の生産性の差を取ることができました。

そして、この10人分の生産性の差の平均と不偏標準偏差からt検定を行いました。

 

しかし、2グループに分けてテストを行うケースもあります。

その場合は、一人ひとりの生産性の差のデータがありませんので、このやり方は使えません。

このような2グループのデータを、対応のない2と言います。

今回は、対応のない2郡のt検定のやり方を紹介します。

これはWelchのt検定とも呼ばれます。

 

次のような場面を想定しましょう。

A社は出荷のピッキング作業を、ハンディターミナルを使って行っています。

そこにB社が新型ハンディターミナルを提案してきました。

B社はこれを使えば、遠くのバーコードも素早く読み込めるため、20%は生産性が向上すると主張しています。

疑い深いA社は、スタッフを10人ずつの2グループに分け、グループ1には旧型ハンディターミナルを、グループ2には新型ハンディターミナルを同時に使ってもらい、生産性の比較を行いました。

結果は下表のようになりました。

新型ハンディターミナルは効果があると言えるでしょうか?

 

今回は前回と違い、左右のデータの差を採っても意味がありません。

全く違う人のデータだからです。

そこで、グループ1とグループ2、それぞれの平均を計算し、差があると言えるのか否かを判定することになります。

 

さて、計算したところ、下表のようになりました。

 

グループ2の方が20%くらい生産性が高そうな感じです。

しかし、たったの10人ずつのデータですから、たまたまかもしれません。

Welchのt検定で調べてみましょう。

 

検定ではまず、102と81は偶然に起こったばらつきの範囲内(誤差範囲)であるという仮説を立てます。

 

tは次のように定義されます。

x1:グループ1の平均

x2:グループ2の平均

s1:グループ1の不偏標準偏差

s2:グループ2の不偏標準偏差

n1:グループ1のサンプルサイズ

n2:グループ2のサンプルサイズ

 

今回の例に当てはめると次のようになります。

t = (102 – 81) / √( 302 / 10 + 192 / 10 ) = 1.87

 

つまり、102と82は標準偏差1.87個分離れているということです。

 

次に標準偏差何個分までなら偶然に起こった範囲と見なせるか(誤差の範囲か)を決定します。

そのためにt分布表を使います。

t分布表を見るには、有意水準自由度を予め決めておく必要があります。

 

有意水準は前回と同じ5%にします。

難しいのは自由度です。

Welchのt検定の自由度は次のように計算します。

なぜ自由度がこうなるかは、とても難解なので理解する必要はないでしょう。

今回の例に当てはめて計算すると、自由度15になります。

20あったデータ数(自由度)が5減ったことになります。

 

t分布表で検索すると次のようになります。

 

つまり標準偏差2.13個分までの差は誤差範囲ということです。

データでは1.87個分しか離れていませんので、102と82は偶然に起こったばらつきの範囲内で、有意とは言えないという結論になります。

 

まとめ

これまでz検定、対応がある2郡のt検定、Welchのt検定と3つの検定を取り上げてきましたが、いずれの事例でも有意差なし(改善効果があるとは言えない)という結論になりました。

これは、いずれも積極的に改善効果がなかったと言っているのではありません。

いずれの検定でも、始めに立てた仮説は「改善効果なし」でした。

そして検定結果は、改善効果がないとは言えないということを言っているに過ぎません。

 

もし、逆の結果だったらどうだったでしょうか?

改善効果がないという仮説が覆りますので、改善効果があったことが確実に言えます。

 

ところが、改善効果なしという仮説を覆せても、改善効果ありということは確実には言えません。

どちらか分からないのです。

 

ですので、いずれの検定結果も、まだ何とも言えませんということなのです。