【カイ二乗分布をわかりやすく】使い方とExcelでのグラフの描き方

2022年7月25日2024年5月18日

正規分布、二項分布、ポアソン分布、、、

いずれも有名な確率分布です。

でも、カイ二乗分布？

なんだかマニアックそうな名前ですね。

でもウィキペディアのカイ二乗分布には、「推計統計学で最も広く利用されるもの」と書かれているくらい、重要な確率分布です。

そこで、この確率分布が身近に感じられるように、徹底的に解剖してみました。

1. カイ二乗分布は確率的な揺らぎの範囲を示す
2. 異常を判断する物差しになるカイ二乗分布
3. Excelでカイ二乗分布のグラフを描いてみる
4. カイ二乗分布のグラフをExcelの乱数シミュレーションで再現する
5. まとめ

カイ二乗分布は確率的な揺らぎの範囲を示す

平均がゼロ、標準偏差（σと呼ばれる）が１である正規分布のことを標準正規分布といいます。

この標準正規分布からn個のサンプルを取り出して、それぞれをZ₁、Z₂、・・・、Z_nとすると、それらの平方和W

W = Z₁²+ Z₂²+・・・+ Z_n²

が従う確率分布のことを自由度nのカイ二乗分布といいます。

考え方自体は難しくありませんね。

標準正規分布からサンプリングしてくるのですから、Z₁、Z₂、・・・、Z_nは小さな数ばかりです。

どのくらい小さな数かというと、±１の範囲にある値である確率が６８％、±２の範囲にある値である確率が９６％です。

一つひとつのデータをグラフにすると次のようになります。

しかもこれらの数字は平均はゼロだけれども、確率的に微小幅±αで揺らいでいるものばかりです。

ですから、これらの数字を理想からの確率的な揺らぎだとみなせば、平方和を計算するということは、理想からの確率的な揺らぎを足し合わせたものだと考えられます。

ここで大事なのは、確率的な揺らぎとは、正常でもこのくらいは揺らぐということです。

ですので、Z₁、Z₂、・・・、Z_nを理想からのズレだと考えれば、ズレが正常でも平方和Wくらいの値にはなりますよということです。

言いかえれば、理想からのズレを二乗して足し合わせた値（平方和）がWより小さければそのズレは正常、大きければそのズレは異常だという物差しになります。

異常を判断する物差しになるカイ二乗分布

平方和Wはズレが正常か異常かを判断する物差しになるといいましたが、Wはサンプルの値Z₁、Z₂、・・・、Z_nによって変動します。

そこで変動幅の上限を調べておきます。

その上限を物差しに使えば良いのです。

通常、９５％のデータが入る区間を正常区間とします。

標準偏差σを使うと、平均±２σの区間がそれに相当します。

それでは、Z₁、Z₂、・・・、Z_nがすべて平均±2σ（±２）だった場合の平方和Wはいくつになるでしょうか？

この場合、Z₁²、 Z₂²、・・・、 Z_n²はすべて４（２の二乗）以下になるはずです。

すると、平方和

W = Z₁²+ Z₂²+・・・+ Z_n²

は４×ｎよりかなり小さい値になることが予想できます。

なぜ「かなり」小さい数になるのかは、こんなアナロジーで考えると良くわかります。

あるマラソン大会では、直近１年間のフルマラソンの自己最高タイムが２時間半以内の人は招待選手として迎えられるとします。

そして１０人が条件を満たして招待選手になりました。

その１０人の平均タイムはどれくらいになるでしょうか？

２時間半ということはないでしょう。

なぜなら、１０人の中にはギリギリ２時間半のタイムの人もいれば、２時間ジャストという超エリートランナーも含まれているかもしれないからです。

そのため、もしかすると平均タイムは２時間１５分くらいかもしれません。

このように、１０個のデータ（ｎ＝１０）があって個々のデータが４以下であれば、その合計は４０（４×１０）より「かなり」小さい数になることが想像できると思います。

例えばｎ＝５の場合のカイ二乗分布は次のような曲線になります。

９５％のデータが含まれる点を調べると１１になります。

つまり個々のデータが９５％の確率で４以下であれば、それら５個を合計した数が９５％の確率で含まれる範囲は０～２０ではなく、もっと「かなり」狭い０～１１になるのです。

この自明でない結果をまとめた関数がカイ二乗分布表です。

ちなみに９５％のデータが含まれる点を「上側５％点」といいます。

カイ二乗分布表には、この他にも上側２.５%点や上側１％点等も含まれています。

自由度m α 0.99 0.975 0.95 0.05 0.025 0.01 より抜粋＆加筆

このようにカイ二乗分布表は自由度と上側ｘ％点のマトリクスになっています。

交点を検索することにより、それが正常か異常かを判断する平方和Wの値がわかります。

Excelでカイ二乗分布のグラフを描いてみる

さっきのグラフは標準正規分布から５個のデータをサンプリングしてきた場合のカイ二乗分布でしたが、何個のデータをサンプリングするかによって分布の形は一意に決まります。

例えば１０個サンプリングした場合のグラフは次のようになります。

このように一意に決まります。

ちなみに、このグラフの元データはExcelにあるカイ二乗分布を求める関数を使うことで簡単に作れます。

カイ二乗分布の確率密度＝CHISQ.DIST（確率変数、自由度、FALSE）

この表を折れ線グラフにすれば、先ほどの自由度１０のカイ二乗分布のグラフが描けます。

カイ二乗分布のグラフをExcelの乱数シミュレーションで再現する

このようにカイ二乗分布は自由度が決まれば一意に決まり、グラフもExcel関数を使えば簡単に描けるのですが、本当にこのようなグラフになるのでしょうか？

それを実際に実験してみましょう。

そのためには、実際に標準正規分布に従う乱数をいくつか生成して、それらの平方和（二乗したあと合計する）を計算してみればわかります。

次のように１０個の乱数を発生させ、それらの平方和を計算することを、２０回繰り返します。

標準正規分布乱数の作り方はこちらを参照下さい↓

エクセルを使って正規分布の乱数を生成する方法をわかりやすく解説

このようにして１０個の標準正規分布乱数の平方和が２０個できあがります。

あとは、これをヒストグラムにするだけです。

ヒストグラムの作り方はこちらを参照下さい↓

Excelでヒストグラムを描く二通りの方法。正規分布の近似曲線も併せて表示！

このようなヒストグラムになります。

次に、これがカイ二乗分布とどれくらい一致しているかを調べるために、先のヒストグラムに自由度１０のカイ二乗分布のグラフを重ね合わせてみましょう。

こうなります。

このように概ね一致しました。

シミュレーション回数を増やせば、もっと合致度は上がるでしょう。

まとめ

・カイ二乗分布は確率的な揺らぎの平方和

・カイ二乗分布は、ズレが単なる確率的な揺らぎによるものなのか、意味のある異常なのかを判断する物差しになる

・カイ二乗分布表を見れば、正常か異常かを判断する平方和Wがわかる

・カイ二乗分布の形は自由度により一意に決まる

・カイ二乗分布の形は標準正規分布乱数を使ったシミュレーションで再現できる

カイ二乗分布の具体的な使い方はこちら↓

【カイ二乗検定はいつ使うの？】具体的な例を使ってExcelでわかりやすく

【適合度のカイ二乗検定】出荷数は正規分布やポアソン分布になるの？

統計カイ二乗分布,カイ二乗検定,確率分布

Posted by ロジギーク