【相関なし/あり】二変量正規分布の3Dグラフをエクセルで作成する方法を実演

釣鐘状の正規分布のグラフは有名ですが、これは一変量の正規分布です。

これは多変量に拡張できます。

でもイメージしにくいですね。

そこで、視覚的にイメージし易いように二変量の正規分布の3Dグラフをエクセルで作成してみましょう。

 

相関なしの場合

まず始めに、二変量の間に相関関係がないケースを想定します。

相関関係がないことは、独立であるともいいます。

どういう場合かというと、ガソリンの値段とコーラの値段は独立といえます。

ガソリンの小売価格は世界の原油価格に連動しますが、コーラの小売価格は連動しません。

極端なオイルショックになれば少しはコーラの値段も上がるかもしれませんが、ほぼ独立であるといえます。

 

対して、ガソリンスタンドAとガソリンスタンドBのガソリン価格は連動します。

それもかなり高い相関で、相関係数は1に近くなるでしょう。

 

相関がない(もしくは無視できる)二変量の正規分布は簡単です。

2つの一変量正規分布を掛け算するだけです。

一変量正規分布は次のように書けました。

 

f(x)=1/SQRT(2πσ2)・exp{-(x-μ)2/2σ2}

 

従って、xとyの二変量の正規分布は次式で表すことができます。

 

f(x)・f(y)

=1/SQRT(2πσx2)・exp{-(x-μx)2/2σx2}・1/SQRT(2πσy2)・exp{-(y-μy)2/2σy2}

=1/2πσxσy・exp{-(x-μx)2/2σx2 -(y-μy)2/2σy2}

 

これをグラフにするにはどうすれば良いでしょうか?

まずはシート上にデータを入力しないといけませんね。

 

おさらいのために、一変量の正規分布を描いてみましょう。

このようにします。

まずは、エクセルシートにxとそれに対応するf(x)の表を作成します。

xはグラフの裾野まで描けるように、十分な範囲を取ります。

例えば平均=0、標準偏差=1の標準正規分布でしたら、xの範囲を-3から+3まで取っておけば99.7%のデータを網羅できます。

平均±標準偏差3個分の範囲には99.7%のデータが含まれるからです。

>> 【標準偏差の気持ち】標準正規分布表の使い方をわかりやすい言葉で徹底解説

 

次のようにxとf(x)を入力します。

 

エクセルで正規分布を発生させる関数NORM.DISTを使っています。

図ではx=-2.2までしか書いていませんが、x=3まで書きます。

そしてf(x)の折れ線グラフを描くと、次のような正規分布のグラフが出来上がります。

 

これを二変量に拡張するには、横軸にx、縦軸にyを取ります。

そして、x=aとy=bに対応するf(a,b)を、その交点に入力していきます。

 

試しに、二変量が

xの平均=0、xの標準偏差=1

yの平均=0.3、yの標準偏差=0.8

である場合の正規分布の表を作成してみましょう。

次のように入力します。

 

先述したように

f(x,y)

=f(x)・f(y)

=1/2πσxσy・exp{-(x-μx)2/2σx2 -(y-μy)2/2σy2}

ですので、この式に基づいてそれぞれのセルに入力してもいいのですが、NORM.DIST関数の掛け算を使う方が簡単です。

絶対参照$を付ける位置を間違わなければ、それほど難しくはないと思います。

 

この表を作成し終わったら、表を選択してグラフメニューの中から3D等高線を選択してみましょう。

 

すると、次のような可愛い形のグラフが出来上がります。

 

これだとx軸、y軸の目盛りがよく分かりませんので、グラフメニューの中から等高線を選んでみます。

 

すると、このようにx、yの値が分かりやすくなります。

 

xは0を中心として大きく広がり、yは0.8を中心として小さく広がっていることが分かります。

 

相関ありの場合

次に、xとyの間に相関関係がある場合の二変量正規分布を描いてみましょう。

この場合の式は次のようになります。

多変量正規分布-Wikipediaより抜粋

 

相関がない場合と比較すると、赤で囲んだ部分が追加されています。

ρはxとyの相関係数です。

つまり、相関関係を表す項が追加されているのです。

 

それでは、この式に基づいてエクセルのシートにx、y、f(x,y)の対応表を入力してみましょう。

次のようになります。

 

式は長くなりますが、絶対参照$を付ける位置に注意しながら入力していけばできると思います。

表を作成し終わったら、先ほどのように3D等高線と等高線のグラフを作成してみましょう。

次のようになるはずです。

3D等高線のグラフ

 

等高線のグラフ

 

相関係数が0.7と比較的大きいために、楕円がx=yの角度で傾いています。

試しに相関係数を0.9にしてみましょう。

このようになります。

 

益々ひねくれたグラフになりましたね。

それと同時に、xとyのデータが入る範囲が、x=yのグラフ近くに寄っていくことも分かります。

 

また、二変量の正規分布のグラフには面白い性質があります。

下図のように、y=-2で切った断面のデータ分布を見てみましょう。

 

表でいうと、下記で選択した部分のデータ分布を見ていることになります。

 

このデータ分布をグラフにすると、次のようにきれいな正規分布になります。

 

これは3次元のグラフをどこで切っても同じです。

下図のように斜めに切った断面でも、1次元の正規分布になります。

 

興味のある方は、試してみて下さい。