【標準偏差はnで割るの?n-1で割るの?】物流における適用例も紹介
標準偏差はnで割るのか?n-1で割るのか?
以前の記事
標準偏差がばらつきを表すのに丁度いい理由をわかりやすく解説します。
で標準偏差の計算式を
Xi:各データ
μ:データの平均値
N:データ数
と紹介しました。
しかし本によってはnではなく、n-1で割るべしと書いてある本もあります。
一体どちらが正しいのでしょうか?
曖昧なままな人も多いと思います。
実はどちらも正しいのですが、標準偏差には2種類あって目的によって使い分ける必要があります。
以下、解説していきます。
標準偏差が2種類ある理由
母集団と標本とは?
まず母集団と標本について理解する必要があります。
マーケティング会社での市場調査では、通常対象となる人全員のデータを取ることはできませんので、ランダムにある人数を選んで調査対象とします。
これを全数調査に対して、標本調査と言います。
またメーカーの品質管理でも全数検査するのはコストがかかるため、標本調査が多くなされます。
この場合の標本調査する目的は、選んだ少数の標本の調査結果から、調査対象全体を推定することにあります。
この時、調査対象全体を母集団、選んだ少数の調査対象を標本(サンプル)と言います。
母集団の平均と分散を知りたい場合、全部のデータを入手するのは困難なため、少数の標本データから推定するわけです。
母集団の分散は標本の分散より大きい
この場合、標本データから計算した平均はそのまま母集団の平均であると推定できますが、分散はそのままの値を推定値とすることはできません。
母集団の推定値とするには小さすぎるのです。
分散の式では各データと平均との差の平方和をとって足し合わせています。
ここで、平均が少し違う値だったらどうなるでしょうか?
試しにデータが2と8の場合を考えてみましょう。
2と8の平均は5ですので、平方和は
(2-5)^2+(8-5)^2=18
となります。
次に平均ではなく、4と各データとの平方和を求めてみましょう。
(2-4)^2+(8-4)^2=20
となります。
18より大きくなりましたね。
次に極端な例として1と各データとの平方和を求めてみましょう。
(2-1)^2+(8-1)^2=50
となります。
18よりはるかに大きくなりましたね。
実は平均との平方和が一番小さくなるのです。
標本データの分散は標本データの平均との平方和で計算しています。
しかし、母集団の平均は標本の平均と違う可能性大です。
ということは、母集団の分散は標本の分散より大きいことになります。
つまり、標本の分散はそのままでは母集団の分散とはなりえず、少し大きくなるように補正してやる必要があります。
標本分散はnで、不偏分散はn-1で割る
そしてその補正係数はn/(n-1)であることが統計理論で知られています。
【スーパーわかりやすく!】不偏標準偏差を求めるにはn-1で割ることを証明する
つまり、標本から求めた分散のn/(n-1)倍が母集団の分散の推定値となります。
この時、標本から求めた生の分散を標本分散、そしてそれをn/(n-1)倍した母集団の分散の推定値を不偏分散と呼びます。
ですので、標本分散は普通にnで割りますが、不偏分散は(n-1)で割ると丁度良い具合いになるのです。
標準偏差は分散の平方根ですので、ルートの中は分散そのものです。
つまり、標準偏差には
- 標本分散の平方根を取ったもの
- 不偏分散の平方根を取ったもの
の2種類があるのです。
そして、前者の標準偏差を指す時にはnで割ると言い、後者を指す時にはn-1で割ると言っているのです。
これが本によって書いてあることが違う理由です。
2種類の標準偏差の適用例
nで割る事例
では2種類の標準偏差は、それぞれどのような場面で使われているのでしょうか?
物流の世界でよく目にする標準偏差は、安全在庫の計算の中で出てきますね。
この標準偏差は厳密には後者、つまり不偏分散の平方根になります。
なぜなら、少数の標本から需要の性質を推定しているためです。
仮に安全在庫を求めるための標準偏差を過去30日間の需要データから計算しているとしましょう。
毎日の需要データは多数の顧客の需要の寄せ集めです。
これを30標本集めて将来の一日当たりの需要を推定していると言えます。
つまり、神のみぞ知る一日当たりの本当の需要(=母集団)を、30個の標本データから推定しているわけです。
標本から母集団を推定する時には不偏分散を使うのでしたね。
ですから、安全在庫の計算で用いる標準偏差は、不偏分散の平方根を使うべきだと言えます。
しかし30標本もあれば、nで割ってもn-1で割っても大した違いはありません。
√(29/30)=0.983
となり2%も変わりませんので、結局はどちらでいいのです。
だからこそ、このことはあまり話題にならないのでしょう。
n-1で割る事例
これに対して倉庫作業スタッフの生産性のばらつきを測定する場合はどうでしょうか?
全員がハンディーターミナルを持っていてリアルタイムで作業進捗を採れる環境にあれば、標本データはそのまま母集団のデータと言えますので標本分散の平方根で計算することになります。
しかしそのようなIT環境がなくて、人手で一部スタッフのデータしか採れない場合は、そのデータから全員の作業性を推定しないといけませんので不偏分散の平方根で計算します。
まとめ
標準偏差には2種類ありますので、目的によってnで割るか、n-1で割るかを使い分ける必要があります。
そのデータが標本サンプルで、それから母集団のはらつきを推定したい場合は、不偏分散の平方根、つまりn-1で割ることにより計算します。
そうではなくて、標本サンプルが母集団のすべてである場合は、標本分散の平方根、つまりnで割ることにより計算します。
また標本サンプルが母集団のすべてではないが、私はあえて標本サンプルのばらつきを調べたいのだという人は、nで割ることにより計算します。
しかし、標本サンプル数nが大きければ両者の違いは無視できるほど小さくなりますので、アバウトな物流の世界ではあまり気にする必要もないかもしれません。