標準偏差がばらつきを表すのに丁度いい理由をわかりやすく解説します。

2022年11月6日

なぜ標準偏差でばらつきを表すことができるのか?

物流では統計をよく使いますので、標準偏差の理解は避けて通れません。

特に安全在庫理論は、標準偏差抜きに理解することは不可能です。

>> 【安全在庫】に込められた意味と計算式をわかりやすい言葉を使って徹底解説!

 

標準偏差はデータのばらつきを測定するための指標ですが、なぜこれでばらつきを表すことができるのでしょうか。

それは標準偏差の計算式をじっくり見れば分かります。

では見ていきましょう。

 

ばらつきの異なるデータの事例

下のデータは商品Aと商品Bの毎日の出荷数を30日間記録したものです。

商品A

772、1,061、1,000、900、1,387、1,247、1,022、1,055、1,584、1,218、1,391、1,040、1,174、952、1,064、1,083、922、1,317、1,245、848、774、998、734、1,215、998、936、976、1,014、796、788

商品B

1,999、923、539、758、1,353、750、1,734、1,159、491、1,314、1,608、1,478、946、1,521、1,289、842、1,382、45、1,024、1,337、1,206、684、1,051、573、506、1,116、1,219、984、1,244、435

 

30日間の平均を取ると、両商品ともに1,050個になります。

それではばらつきが大きいのはどちらでしょうか?

参考までに両商品についての散布図を書いてみると次のようになります。

これを見ると商品Bの方がばらつきが大きいことが分かります。

ではどのくらい大きいでしょうか?

 

色々な方法でばらつきを表してみる

最大値ー最小値では全データを代表しているとは言えない

そのためには数字で表す必要があります。

すぐに思いつくのは、最大値最小値を調べて、その差で比べてはどうかということです。

実際計算してみると、

 

商品A:1,584-734=850

商品B:1,999-45=1,954

 

となり、商品Bの方が2.3倍ばらつきが大きいことが分かります。

でも最大値や最小値が、たまたま他のデータから離れているだけかもしれません。

これは外れ値と呼ばれ、現実にはよく起こることです。

それに最大値と最小値の差を取るだけでは、他のデータのばらつきが全く考慮されないためフェアではありません。

 

データと平均の差の合計ではゼロになる

次に思いつくのが、各データと平均との差をとって、それを足し合わせた値で比較してはどうかということです。

上の例ですと両商品ともに平均は1,050ですので、次のようになります。

 

商品A

(772-1050)+(1061-1050)+(1000-1050)+...+(788-1050)=11

商品B

(1999-1050)+(923-1050)+(539-1050)+...+(435-1050)=10

 

あれっ、商品Bの方がばらつきが小さくなってしまいましたね。

考えてみれば当たり前で、平均とはばらつきの真ん中にある点ですので、ここから各データへの距離を取ると、プラスとマイナスで打ち消し合って0に近い値になってしまうのです。

 

残差平方和では値が大きすぎる

それではということで考え出されたのが、各データと平均値との差を2してマイナスにならないようにしてはどうかということです。

マイナスかけるマイナスはプラス、プラスかけるプラスも当然プラスになりますので、打ち消し合うことなしに差を足し合わせることができるのです。

このように各データと平均の差の2乗の合計を残差平方和といいます。

実際計算すると次のようになります。

 

商品A

(772-1050)2+(1061-1050) 2+(1000-1050) 2+...+(788-1050) 2=1,239,713

商品B

(1999-1050) 2+(923-1050) 2+(539-1050) 2+...+(435-1050) 2=5,472,614

 

商品Bの方が約4.4倍大きくなりました。

ばらつきを表していそうですね。

 

残差平方和の平均(分散)では元データとスケールが合わない

でも何だか数字が大き過ぎると思いませんか?

平均を比べたい時に、合計で比べるよりも、それをデータ数で割った平均で比べる方が実感が湧きますよね。

ですのでデータ数で割ってみましょう。

これを分散といいます。

 

商品A

{(772-1050)2+(1061-1050) 2+(1000-1050) 2+...+(788-1050) 2}/30=41,324

商品B

{(1999-1050) 2+(923-1050) 2+(539-1050) 2+...+(435-1050) 2}/30=182,420

 

これも何だか実感の沸かない数字ですね。

2乗した差を足し合わせているから数字が大きすぎるのです。

3と6を比べるのに、2乗した9と36を比べているようなものです。

 

残差平方和の平均の平方根(標準偏差)がばらつきを表すのに丁度いい

ですので、両方ともルート(平方根)を取ってみましょう。

 

商品A

√{(772-1050)2+(1061-1050) 2+(1000-1050) 2+...+(788-1050) 2}/30=203

商品B

√{(1999-1050) 2+(923-1050) 2+(539-1050) 2+...+(435-1050) 2}/30=427

 

これで各データと同じくらいの数字の大きさになり、ばらつきの実感が湧きますね。

商品Bは商品Aに比べて2.1倍ばらつきが大きいと言えるのです。

そしてこの値を標準偏差と言い、ルートを取る前の値を分散と言うのです。

このように標準偏差も分散も、各データが平均からどれくらい離れているかを表しているため、ばらつきを表していると言えるのです。

 

標準偏差の計算式のまとめ

以上を数学的に表すと、標準偏差は次のような式になります。

σ:標準偏差

xi:各データの値

μ:平均

N:データ数

 

∑は数学の記号で、沢山の数を足す式を簡略化してくれます。

例えば、a1+a2+a3+a4は長ったらしいので、∑を使うと

のように簡略化して書くことができます。

kを1から4まで変化させて、すべてを足し合わせるという意味です。

つまり、

を意味します。

∑の下と上の記号は省略することもあります。

先の標準偏差の計算式では、iに1から順に代入してすべて足し合わせるという意味になります。

 

Udemyの関連講座

はじめての統計(推定・検定編) ~記述統計から推測統計へ!しっかり9時間、97レクチャーでデータ時代の入場券を手に入れる

データサイエンス時代にまず押さえるべきデータの扱い方・見方を扱った統計講座。データをどう要約し、分かりやすく伝えるのか(記述統計)から、そのデータから母集団について何が言えるのか(推測統計)まで、丁寧に統計的発想を身に付けます。

 

文系出身・数学がニガテ・知識ゼロの方大歓迎!社会人のための統計活用力養成講座 ~ データサイエンスの基礎を攻略!

「最も面白く,役に立った!」と評価される集合型研修のオリジナル映像講座版!文系・数学が苦手・過去に学習したが挫折したといった方でも大丈夫!統計を実際に使う時に必要な視点から学ぶ,統計を使って的確な解釈・判断ができるようになることを目指す講座

 

【しっかり原理を理解したい方向け】東大理系女子と学ぶはじめての統計学

統計学を学んだことのない方向けの入門コースです。原理をきちんと説明しますので、これからステップアップしたい方に最適です。

 

いちばん理解できる統計学ベーシック講座その1【確率分布・推定・検定】

統計学の基礎を効率的に学べるベーシック講座です。統計学の入り口となる「確率分布・推定・検定」について豊富な図を用いて説明していきます。統計学や確率思考という一生モノのスキルを一緒に身につけましょう!