【カイ二乗分布をわかりやすく】使い方とExcelでのグラフの描き方
正規分布、二項分布、ポアソン分布、、、
いずれも有名な確率分布です。
でも、カイ二乗分布?
なんだかマニアックそうな名前ですね。
でもウィキペディアのカイ二乗分布には、「推計統計学で最も広く利用されるもの」と書かれているくらい、重要な確率分布です。
そこで、この確率分布が身近に感じられるように、徹底的に解剖してみました。
カイ二乗分布は確率的な揺らぎの範囲を示す
平均がゼロ、標準偏差(σと呼ばれる)が1である正規分布のことを標準正規分布といいます。
この標準正規分布からn個のサンプルを取り出して、それぞれをZ1、Z2、・・・、Znとすると、それらの平方和W
W = Z12 + Z22 +・・・+ Zn2
が従う確率分布のことを自由度nのカイ二乗分布といいます。
考え方自体は難しくありませんね。
標準正規分布からサンプリングしてくるのですから、Z1、Z2、・・・、Znは小さな数ばかりです。
どのくらい小さな数かというと、±1の範囲にある値である確率が68%、±2の範囲にある値である確率が96%です。
一つひとつのデータをグラフにすると次のようになります。
しかもこれらの数字は平均はゼロだけれども、確率的に微小幅±αで揺らいでいるものばかりです。
ですから、これらの数字を理想からの確率的な揺らぎだとみなせば、平方和を計算するということは、理想からの確率的な揺らぎを足し合わせたものだと考えられます。
ここで大事なのは、確率的な揺らぎとは、正常でもこのくらいは揺らぐということです。
ですので、Z1、Z2、・・・、Znを理想からのズレだと考えれば、ズレが正常でも平方和Wくらいの値にはなりますよということです。
言いかえれば、理想からのズレを二乗して足し合わせた値(平方和)がWより小さければそのズレは正常、大きければそのズレは異常だという物差しになります。
異常を判断する物差しになるカイ二乗分布
平方和Wはズレが正常か異常かを判断する物差しになるといいましたが、Wはサンプルの値Z1、Z2、・・・、Znによって変動します。
そこで変動幅の上限を調べておきます。
その上限を物差しに使えば良いのです。
通常、95%のデータが入る区間を正常区間とします。
標準偏差σを使うと、平均±2σの区間がそれに相当します。
それでは、Z1、Z2、・・・、Znがすべて平均±2σ(±2)だった場合の平方和Wはいくつになるでしょうか?
この場合、Z12 、 Z22 、・・・、 Zn2はすべて4(2の二乗)以下になるはずです。
すると、平方和
W = Z12 + Z22 +・・・+ Zn2
は4×nよりかなり小さい値になることが予想できます。
なぜ「かなり」小さい数になるのかは、こんなアナロジーで考えると良くわかります。
あるマラソン大会では、直近1年間のフルマラソンの自己最高タイムが2時間半以内の人は招待選手として迎えられるとします。
そして10人が条件を満たして招待選手になりました。
その10人の平均タイムはどれくらいになるでしょうか?
2時間半ということはないでしょう。
なぜなら、10人の中にはギリギリ2時間半のタイムの人もいれば、2時間ジャストという超エリートランナーも含まれているかもしれないからです。
そのため、もしかすると平均タイムは2時間15分くらいかもしれません。
このように、10個のデータ(n=10)があって個々のデータが4以下であれば、その合計は40(4×10)より「かなり」小さい数になることが想像できると思います。
例えばn=5の場合のカイ二乗分布は次のような曲線になります。
95%のデータが含まれる点を調べると11になります。
つまり個々のデータが95%の確率で4以下であれば、それら5個を合計した数が95%の確率で含まれる範囲は0~20ではなく、もっと「かなり」狭い0~11になるのです。
この自明でない結果をまとめた関数がカイ二乗分布表です。
ちなみに95%のデータが含まれる点を「上側5%点」といいます。
カイ二乗分布表には、この他にも上側2.5%点や上側1%点等も含まれています。
自由度m α 0.99 0.975 0.95 0.05 0.025 0.01 より抜粋&加筆
このようにカイ二乗分布表は自由度と上側x%点のマトリクスになっています。
交点を検索することにより、それが正常か異常かを判断する平方和Wの値がわかります。
Excelでカイ二乗分布のグラフを描いてみる
さっきのグラフは標準正規分布から5個のデータをサンプリングしてきた場合のカイ二乗分布でしたが、何個のデータをサンプリングするかによって分布の形は一意に決まります。
例えば10個サンプリングした場合のグラフは次のようになります。
このように一意に決まります。
ちなみに、このグラフの元データはExcelにあるカイ二乗分布を求める関数を使うことで簡単に作れます。
カイ二乗分布の確率密度=CHISQ.DIST(確率変数、自由度、FALSE)
この表を折れ線グラフにすれば、先ほどの自由度10のカイ二乗分布のグラフが描けます。
カイ二乗分布のグラフをExcelの乱数シミュレーションで再現する
このようにカイ二乗分布は自由度が決まれば一意に決まり、グラフもExcel関数を使えば簡単に描けるのですが、本当にこのようなグラフになるのでしょうか?
それを実際に実験してみましょう。
そのためには、実際に標準正規分布に従う乱数をいくつか生成して、それらの平方和(二乗したあと合計する)を計算してみればわかります。
次のように10個の乱数を発生させ、それらの平方和を計算することを、20回繰り返します。
標準正規分布乱数の作り方はこちらを参照下さい↓
エクセルを使って正規分布の乱数を生成する方法をわかりやすく解説
このようにして10個の標準正規分布乱数の平方和が20個できあがります。
あとは、これをヒストグラムにするだけです。
ヒストグラムの作り方はこちらを参照下さい↓
Excelでヒストグラムを描く二通りの方法。正規分布の近似曲線も併せて表示!
このようなヒストグラムになります。
次に、これがカイ二乗分布とどれくらい一致しているかを調べるために、先のヒストグラムに自由度10のカイ二乗分布のグラフを重ね合わせてみましょう。
こうなります。
このように概ね一致しました。
シミュレーション回数を増やせば、もっと合致度は上がるでしょう。
まとめ
・カイ二乗分布は確率的な揺らぎの平方和
・カイ二乗分布は、ズレが単なる確率的な揺らぎによるものなのか、意味のある異常なのかを判断する物差しになる
・カイ二乗分布表を見れば、正常か異常かを判断する平方和Wがわかる
・カイ二乗分布の形は自由度により一意に決まる
・カイ二乗分布の形は標準正規分布乱数を使ったシミュレーションで再現できる
カイ二乗分布の具体的な使い方はこちら↓
【カイ二乗検定はいつ使うの?】具体的な例を使ってExcelでわかりやすく
【適合度のカイ二乗検定】出荷数は正規分布やポアソン分布になるの?