【二要因の分散分析】ばらつきを分解してF検定!Excelの分析ツールを使えばもっと簡単!

2023年10月29日

ある倉庫会社ではハンディターミナルを使ったピッキング作業を行っています。

この会社ではA社製のハンディターミナルを使っています。

ある日A社の競合であるB社から、10m離れていてもレーザーでバーコードを読み取れるというロングレンジのハンディターミナルの売り込みを受けました。

この話しをA社にしたところ、A社でも同様の製品があるとのことでした。

そこでA社とB社の製品を使って、ピッキング速度に違いが出るかどうかをテストしてみることにしました。

ロングレンジとノーマルレンジによる違いも見てみたいため、ピッキングスタッフをランダムに4組に分け、①A社製のロングレンジ、②A社製のノーマルレンジ、③B社製のロングレンジ、④B社製のノーマルレンジのハンディターミナルを使ってもらい、毎日のピッキング速度を測定しました。

25日間テストした結果は以下の通りでした。

 

果たしてB社のハンディターミナルに切り替えてピッキング速度が上がると言えるでしょうか?

また、ロングレンジのハンディターミナルを使えばノーマルレンジのものよりもピッキング速度が上がると言えるでしょうか?

 

二要因の分散分析とは?

この例ではピッキング速度に影響を与えそうな要因が2つあります。

製造メーカー(A社製かB社製か)と、読み取り距離(ロングレンジかノーマルレンジか)です。

このように2つの要因によって違いが出るかどうかを調べる分析のことを、二要因の分散分析と言います。

 

これに対して、以前の記事

【分散分析とは?】その原理を図解で理解してExcelの分析ツールで計算してみる

 

で行った分散分析では、配車台数に影響を与える要因は誰か?(AさんかBさんかCさんか)というように要因は1つだけでした。

ですので、これは一要因の分散分析と言います。

 

要因の数が増えると少しだけ分析が難しくなります。

それは一方の要因がもう一方の要因に影響を及ぼすことがあるためです。

これを交互作用と言います。

例えば、A社製かB社製かに拘わらずロングレンジの方がノーマルレンジよりもピッキング速度が同程度速くなれば、交互作用はないと言えます。

ところが、先のデータを見てみると、B社製ではロングレンジでのピッキング速度が118.76、ノーマルレンジでは108.8ですのでロングレンジの方が早くピッキングできましたが、A社製ではロングレンジ:112.32、ノーマルレンジ:115.64ですので、ノーマルレンジを使った方が早くピッキングできています。

つまり、交互作用があるということです。

二要因の分散分析には、このような難しさがあります。

 

ばらつきを分解する

意味のあるばらつきと意味のないばらつき

まずは4組のピッキング速度のデータを散布図に描いてみましょう。

大まかに描くと次のようになるはずです。

 

このように4組のピッキング速度は異なりますが、各組のピッキング速度にもばらつきがあるため、その影響が見えにくくなっています。

このことを図にすると次のようになります。

 

このように意味のあるばらつき意味のないばらつきに分けられます。

一要因の分散分析では、

F値=意味のあるばらつき/意味のないばらつき

を計算して、F検定で有意差があるかどうかを調べました。

 

これが二要因の分散分析になると、意味のあるばらつきをもう少し細かく分解する必要があります。

要因が2つですので、それぞれの要因別に有意差があるかを調べるためには、最低でも2つには分解する必要があります。

更に、先ほど申し上げた交互作用もあるため、併せて3つに分解します。

 

意味のあるばらつきを3つに分解して求める

要因1によるばらつき

それでは順に分解していきます。

まずはメーカーの違いによるピッキング速度のばらつきを調べます。

そのためには、下記のようにA社のハンディターミナルを使った時のピッキング速度の平均と、B社のハンディターミナルを使った時のピッキング速度の平均と、全体の平均から偏差平方和を計算すればよいでしょう。

 

Excelで計算すると次のようになります。

クリックすると拡大します

 

要因2によるばらつき

次にレンジの違いによるピッキング速度のばらつきを調べます。

そのためには、下記のようにロングレンジのハンディターミナルを使った時のピッキング速度の平均と、ノーマルレンジのハンディターミナルを使った時のピッキング速度の平均と、全体の平均から偏差平方和を計算すればよいでしょう。

 

先ほどのExcelのシートに追記すると、次のようになります。

クリックすると拡大します

 

交互作用によるばらつき

次に交互作用の偏差平方和を求めるのですが、そのためにまず意味のあるばらつき全体の偏差平方和を求めます。

これは次のようにして求められます。

クリックすると拡大します

 

つまり、各組の平均が全体の平均からどれくらい離れているかを表す偏差平方和を求めるのです。

これが求まれば、

意味のあるばらつき全体の偏差平方和=要因1によるばらつきの偏差平方和+要因2によるばらつきの偏差平方和+交互作用によるばらつきの偏差平方和

の関係がありますので、

1,378.80=1+275.56+交互作用によるばらつきの偏差平方和

から、交互作用によるばらつきの偏差平方和は1,102.24になります。

クリックすると拡大します

 

意味のないばらつきを求める

次に意味のないばらつきの偏差平方和を求めます。

これは各組の偏差平方和を足せばよいだけなので、次のように計算できます。

偏差平方和は分散とデータ数の積になることを利用しています。

クリックすると拡大します

 

全体のばらつきを求める

最後に全体のばらつきの偏差平方和を求めます。

これも先ほどと同じように、全体の分散にデータ数(今度は100個)を掛けることにより計算できます。

クリックすると拡大します

 

ちゃんと分解されているか確かめる

これですべてのばらつきの偏差平方和が出揃いました。

ちゃんと分解できているかどうか確かめてみましょう。

全体のばらつきの偏差平方和=意味のあるばらつきの偏差平方和+意味のないばらつきの偏差平方和

=要因1によるばらつきの偏差平方和+要因2によるばらつきの偏差平方和+交互作用によるばらつきの偏差平方和+意味のないばらつきの偏差平方和

=1.00+275.56+1,102.24+15,455.76

=16,834.56

 

このように全体のばらつきの偏差平方和である16,834.56が、4つの偏差平方和に分解できました。

 

各ばらつきが有意かどうかF検定する

意味のないばらつきを基準にF検定する

もう一度4つの偏差平方和を整理するとこうなります。

要因1によるばらつきの偏差平方和=1.00・・・①

要因2によるばらつきの偏差平方和=275.56・・・②

交互作用によるばらつきの偏差平方和=1,102.24・・・③

意味のないばらつきの偏差平方和=15,455.76・・・④

 

ピッキング速度に違いが生まれる要因はメーカー(①)、レンジ(②)、交互作用(③)の3つありますが、これらが有意と言えるかどうかは意味のないばらつきの偏差平方和(④)と比較すればよいですね。

④は測定誤差のようなものですので、④と比べて大きければその要因は有意と言えるし、小さければ有意とは言えないでしょう。

2つの分散が有意と言えるかどうかはF検定で調べることができます。

【F検定の使い方】分散ではなく変動係数を検定する方が実用的な事例も

 

要因1によるばらつきをF検定する

分散にデータ数を掛けた数が偏差平方和に過ぎませんので、偏差平方和が有意かどうかもF検定で調べることができます

そこで、まずは①が④に比べて有意かどうかを調べてみましょう。

F値=①/④=1.00/15,455.76=0.0062

となります。

これが起こる確率(P)をF.DIST関数で計算してみると、

P値=1-F.DIST(F値、分子の自由度、分母の自由度、TRUE)

=1-F.DIST(0.0062、1、96、TRUE)

=94%

となります。

通常、このP値が5%より小さいと有意と判断しますので、94%というのは全くもって有意とは言えません。

ここで①はメーカーの違いによるばらつきですので、ハンディターミナルのメーカーがA社であろうとB社であろうと違いはないということになります。

 

要因2によるばらつきをF検定する

次に、②が④に比べて有意かどうかを調べてみましょう。

F値=②/④=275.56/15,455.76=1.712

P値=1-F.DIST(F値、分子の自由度、分母の自由度、TRUE)

=1-F.DIST(1.712、1、96、TRUE)

=19%

となります。

これも5%よりも大きいので、②と④も有意差があるとは言えません。

ここで②はレンジの違いによるばらつきですので、ロングレンジのハンディターミナルであろうとノーマルレンジであろうと違いはないということになります。

 

交互作用によるばらつきをF検定する

最後に③と④を比べてみます。

この場合は、

F値=③/④=1,102.24/15,455.76=6.846

P値=1-F.DIST(F値、分子の自由度、分母の自由度、TRUE)

=1-F.DIST(6.846、1、96、TRUE)

=1%

となり、有意差なしとは言えません。

ここで③は交互作用によるばらつきですので、メーカーとレンジの組み合わせによってはピッキング速度に違いがないとは言えないことになります。

現にB社製でロングレンジのハンディターミナルを使った場合は、ピッキング速度が118.76と全体の平均である113.88に比べて随分速くなっていますね。

つまりこの場合は、B社製のハンディターミナルに変更するだけでなく、B社製のロングレンジのハンディターミナルに変更することによって初めて効果が現れるということが言えるのです。

 

Excel分析ツールを使えばもっと簡単!

このようにして二要因の分散分析をExcelでやることができますが、少し面倒臭いですね。

でもExcelには分析ツールという便利なアドイン機能があって、これを使えば簡単にできてしまいます。

まずは、表の形式を下図のように変更します。

クリックすると拡大します

 

次にデータ⇒データ分析を選択します。

クリックすると拡大します

 

続いて下図の画面が現れますので、分散分析:繰り返しのある二元配置を選択してOKをクリックします。

クリックすると拡大します

 

するとデータ設定画面が現れますので、下記のように設定します。

クリックすると拡大します

 

すると、下記のような分散分析表が出来上がります。

クリックすると拡大します

 

さっきと比べると随分と簡単にできましたね。

この表に出ている数字は、F境界値を除いてすべて前節で計算した数字と同じです。

見比べてみると表の意味がよく理解できると思います。

 

【Udemyの関連講座】

はじめての統計(推定・検定編) ~記述統計から推測統計へ!しっかり9時間、97レクチャーでデータ時代の入場券を手に入れる

データサイエンス時代にまず押さえるべきデータの扱い方・見方を扱った統計講座。データをどう要約し、分かりやすく伝えるのか(記述統計)から、そのデータから母集団について何が言えるのか(推測統計)まで、丁寧に統計的発想を身に付けます

いちばん理解できる統計学ベーシック講座その1【確率分布・推定・検定】

統計学の基礎を効率的に学べるベーシック講座です。統計学の入り口となる「確率分布・推定・検定」について豊富な図を用いて説明していきます。統計学や確率思考という一生モノのスキルを一緒に身につけましょう!