多変量正規分布のグラフを描いて未来の状態を予測する方法をExcelで実演!
多変量正規分布が使われる事例
物流センターAでは夕方に10台の集荷トラックが帰ってきます。
それぞれのトラックの帰庫時間については集計してあり、それぞれ平均時間と標準偏差が分かっています。
このデータを元に、物流センターにおける時間ごとの作業量を予測するにはどうすればよいでしょうか?
二変数が独立の正規分布グラフ
トラックの帰庫時間は通常、正規分布に従います。
複数台のトラックがある場合も、それぞれの帰庫時間は正規分布に従います。
簡単のため、2台のトラックの帰庫時間が次のような正規分布に従うとしましょう。
トラック1:平均=5時、標準偏差=18分
トラック2:平均=4時半、標準偏差=30分
それぞれのトラックの帰庫時間の分布をグラフにすると次のようになります。
トラック1
トラック2
これらを1つのグラフで表す方法もあります。
次のように3次元のグラフで表せます。
このグラフの描き方はこちら >>【相関なし/あり】二変量正規分布の3Dグラフをエクセルで作成する方法を実演
これはエクセルの3D等高線のグラフで描いたものですが、それぞれのトラックの帰庫時間の確率分布の傾向は掴めると思います。
このグラフでは2台のトラックの帰庫時間の間には何の関係もないことを前提としていました。
これを「2つの帰庫時間は独立である」といいます。
ところが、実際には何らかの相関関係があるケースの方が多いですね。
例えば、連休前の週末にはどこの会社も出荷量が多くなったり、道路が込んだりして2台とも帰庫時間が遅くなったりします。
二変数が従属の正規分布グラフ
このような場合は「二変量が従属な場合の正規分布」といい、従属度合によって分布の形状が変わってきます。
そして従属度合を相関係数で表します。
相関係数は2つの変数の間に何も関係がない場合、つまり独立の場合はゼロになります。
一方、1つの変数が増えればもう1つの変数も比例して増える場合は1になり、逆に1つの変数が増えればもう一つの変数が比例的に減る場合は-1になります。
例えば、2台のトラックの帰庫時間の分布が先ほどと同じ
トラック1:平均=5時、標準偏差=18分
トラック2:平均=4時半、標準偏差=30分
で、相関係数が0.7の場合には、次のような確率分布になります。
このグラフの描き方はこちら >> 【相関なし/あり】二変量正規分布の3Dグラフをエクセルで作成する方法を実演
2変数が独立な場合のグラフと比べると、相関がある分、斜めに傾いていて、山の幅も狭くなっていることが分かります。
確率が低い部分はカットする
上のグラフだと、かなり低い確率まで描かれていますので、下位20%のデータは無視したグラフを描いてみます。
つまり、下図のように両裾野の10%ずつのデータを削るということですが、これを「両側20%点以内のデータに絞る」といいます。
先ほどの3次元のグラフから、両側20%点以内のデータに絞り込むと次のようになります。
二変量が独立な場合
二変量が従属な場合
エリアがだいぶ異なっていることが分かりますね。
これは、2台のトラックの帰庫の予測時間がだいぶ異なっていることを意味します。
予測時間が違えば、時間ごとの予測物量も違ってきますね。
このように正規分布に従う変数が複数ある場合、それらを独立と扱うか従属と扱うかで結果は異なってきます。
そして変数間に相関関係がある場合には、多変量の正規分布により変数間の相関関係を反映させる必要が出てきます。
二変量(xとy)の場合には、次の式で計算することができて、エクセルで3次元のグラフで視覚的に示すことが可能です。
ところが、三変量以上になると「行列」で式を表さないと複雑になりすぎてしまいます。
行列で書くと、何変量であっても次のようなスッキリとした式になります。
しかし、グラフで表すことはできません。
人間は4次元以上の世界を認識できないからです。
ですから、冒頭の例のような10台のトラックの帰庫時間の予測分布をグラフで視覚的に示すことはできません。
しかし、10×10の行列を使って定式化して、解くことはできます。
【行列を使って計算!】多変量正規分布のグラフをエクセルで作成する方法|サンプルファイル付き
また、
【正規分布のベイズ推定】予想打率を逐次更新する例でわかりやすく解説
で解説したように、正規分布はベイズ推定により新しい情報でアップデートしていくことができますが、行列を使いこなせるようになれば多変量の正規分布をアップデートできるようになり、実用の範囲がぐんと広がります。
学生の頃に習って
「こんなの何の役に立つんだろう」
と思っていた行列は、意外なことに物流でも役に立つのです。