標準偏差がばらつきを表すのに丁度いい理由をわかりやすく解説します。
なぜ標準偏差でばらつきを表すことができるのか?
物流では統計をよく使いますので、標準偏差の理解は避けて通れません。
特に安全在庫理論は、標準偏差抜きに理解することは不可能です。
>> 【安全在庫】に込められた意味と計算式をわかりやすい言葉を使って徹底解説!
標準偏差はデータのばらつきを測定するための指標ですが、なぜこれでばらつきを表すことができるのでしょうか。
それは標準偏差の計算式をじっくり見れば分かります。
では見ていきましょう。
ばらつきの異なるデータの事例
下のデータは商品Aと商品Bの毎日の出荷数を30日間記録したものです。
商品A
772、1,061、1,000、900、1,387、1,247、1,022、1,055、1,584、1,218、1,391、1,040、1,174、952、1,064、1,083、922、1,317、1,245、848、774、998、734、1,215、998、936、976、1,014、796、788
商品B
1,999、923、539、758、1,353、750、1,734、1,159、491、1,314、1,608、1,478、946、1,521、1,289、842、1,382、45、1,024、1,337、1,206、684、1,051、573、506、1,116、1,219、984、1,244、435
30日間の平均を取ると、両商品ともに1,050個になります。
それではばらつきが大きいのはどちらでしょうか?
参考までに両商品についての散布図を書いてみると次のようになります。
これを見ると商品Bの方がばらつきが大きいことが分かります。
ではどのくらい大きいでしょうか?
色々な方法でばらつきを表してみる
最大値ー最小値では全データを代表しているとは言えない
そのためには数字で表す必要があります。
すぐに思いつくのは、最大値と最小値を調べて、その差で比べてはどうかということです。
実際計算してみると、
商品A:1,584-734=850
商品B:1,999-45=1,954
となり、商品Bの方が2.3倍ばらつきが大きいことが分かります。
でも最大値や最小値が、たまたま他のデータから離れているだけかもしれません。
これは外れ値と呼ばれ、現実にはよく起こることです。
それに最大値と最小値の差を取るだけでは、他のデータのばらつきが全く考慮されないためフェアではありません。
データと平均の差の合計ではゼロになる
次に思いつくのが、各データと平均との差をとって、それを足し合わせた値で比較してはどうかということです。
上の例ですと両商品ともに平均は1,050ですので、次のようになります。
商品A
(772-1050)+(1061-1050)+(1000-1050)+...+(788-1050)=11
商品B
(1999-1050)+(923-1050)+(539-1050)+...+(435-1050)=10
あれっ、商品Bの方がばらつきが小さくなってしまいましたね。
考えてみれば当たり前で、平均とはばらつきの真ん中にある点ですので、ここから各データへの距離を取ると、プラスとマイナスで打ち消し合って0に近い値になってしまうのです。
残差平方和では値が大きすぎる
それではということで考え出されたのが、各データと平均値との差を2乗してマイナスにならないようにしてはどうかということです。
マイナスかけるマイナスはプラス、プラスかけるプラスも当然プラスになりますので、打ち消し合うことなしに差を足し合わせることができるのです。
このように各データと平均の差の2乗の合計を残差平方和といいます。
実際計算すると次のようになります。
商品A
(772-1050)2+(1061-1050) 2+(1000-1050) 2+...+(788-1050) 2=1,239,713
商品B
(1999-1050) 2+(923-1050) 2+(539-1050) 2+...+(435-1050) 2=5,472,614
商品Bの方が約4.4倍大きくなりました。
ばらつきを表していそうですね。
残差平方和の平均(分散)では元データとスケールが合わない
でも何だか数字が大き過ぎると思いませんか?
平均を比べたい時に、合計で比べるよりも、それをデータ数で割った平均で比べる方が実感が湧きますよね。
ですのでデータ数で割ってみましょう。
これを分散といいます。
商品A
{(772-1050)2+(1061-1050) 2+(1000-1050) 2+...+(788-1050) 2}/30=41,324
商品B
{(1999-1050) 2+(923-1050) 2+(539-1050) 2+...+(435-1050) 2}/30=182,420
これも何だか実感の沸かない数字ですね。
2乗した差を足し合わせているから数字が大きすぎるのです。
3と6を比べるのに、2乗した9と36を比べているようなものです。
残差平方和の平均の平方根(標準偏差)がばらつきを表すのに丁度いい
ですので、両方ともルート(平方根)を取ってみましょう。
商品A
√{(772-1050)2+(1061-1050) 2+(1000-1050) 2+...+(788-1050) 2}/30=203
商品B
√{(1999-1050) 2+(923-1050) 2+(539-1050) 2+...+(435-1050) 2}/30=427
これで各データと同じくらいの数字の大きさになり、ばらつきの実感が湧きますね。
商品Bは商品Aに比べて2.1倍ばらつきが大きいと言えるのです。
そしてこの値を標準偏差と言い、ルートを取る前の値を分散と言うのです。
このように標準偏差も分散も、各データが平均からどれくらい離れているかを表しているため、ばらつきを表していると言えるのです。
標準偏差の計算式のまとめ
以上を数学的に表すと、標準偏差は次のような式になります。
σ:標準偏差
xi:各データの値
μ:平均
N:データ数
∑は数学の記号で、沢山の数を足す式を簡略化してくれます。
例えば、a1+a2+a3+a4は長ったらしいので、∑を使うと
のように簡略化して書くことができます。
kを1から4まで変化させて、すべてを足し合わせるという意味です。
つまり、
を意味します。
∑の下と上の記号は省略することもあります。
先の標準偏差の計算式では、iに1から順に代入してすべて足し合わせるという意味になります。