回帰直線の傾きの精度を確率分布グラフで表示する方法をエクセルで実演！

2021年8月15日2024年5月19日

回帰直線の傾きの精度を確率分布で知りたい

前回はエクセルの分析ツールを使って回帰分析を行う方法を紹介しました。

【エクセル回帰分析結果の見方】出力される４つの表をすべて検証してみた。

この回帰分析表には直線の傾きの他に、その傾きの精度の検定結果まで載っています。

ところが、この検定で分かるのは、傾きがゼロと見なせるかどうかということだけです。

つまり、傾きがゼロかそれ以外か？ということだけを検定しています。

これに対して、傾きが１０である確率は３０％、９である確率は１０％のように確率分布で傾きの精度が分かれば、それを使って意思決定を定量化することができて便利です。

今回は、そのやり方を紹介します。

具体例で計算

物流センターAでは入社前に矯正視力の検査をしています。

各スタッフについて視力とピッキングの平均生産性のデータをまとめたところ、次のようになりました。

x	y
視力	処理数
0.5	41
0.9	47
0.3	38
1.2	47
0.7	37
1	47
0.8	45
0.7	40
0.5	38
1.3	46
0.4	41
1.2	45
0.8	45
1.1	48
0.7	38
0.7	45
1.2	47
1.1	47

スケールを合せるために1.2は1.1に、1.5は1.2に、2.0は1.3に変換しています。

散布図は次のようになりました。

視力は生産性に関係するといえるでしょうか？

エクセル分析ツールで回帰分析表を出力する

これを回帰分析で調べてみましょう。

エクセルで回帰分析をしたら、次のような結果表が出力されました。

結果表の出し方については、こちらを参照して下さい。

【エクセル回帰分析結果の見方】出力される４つの表をすべて検証してみた。

まず相関係数を見てみましょう。

重相関Rは0.786768724ですので、相関は高いといえるでしょう。

回帰式の精度をF値で調べる

次に回帰式がどれだけの精度があるかを見てみましょう。

これは回帰の分散／誤差の分散の比で判断します。

この比はF値で、表では「観測された分散比」で示されています。

F値は25.99530453で、対応するP値は0.000107336です。（表では有意F）

P値は0.01%と非常に小さいので、回帰の分散と誤差の分散は同じとはいえません。

従って回帰の分散は誤差の分散より十分に大きいといえ、回帰式の精度は高いといえます。

回帰式は傾きの係数が10.03910416、切片が35.02275151ですので、

y=10.03910416x+35.02275151

です。

傾きの精度をt値で調べる

この傾き10.03910416の精度はどうでしょうか？

結果表には標準誤差は1.969008112と出ています。

標準誤差とは推定量の標準偏差のことで、標準偏差を自由度の平方根で割ったものです。

そして、傾き10.03910416を標準誤差1.969008112で割ったものがt値5.098559064になります。

これは0と10.03910416の間に標準誤差が5.098559064個分含まれることを意味します。

そしてこのt値に対応するP値が0.000107336ということは、0と10.03910416を同じと見なしてよい確率が0.0107336%しかないことを意味します。

これは、傾き10.03910416は0と見なせないということで、精度は高いと言えます。

傾きの精度の確率分布を作る

それでは、この結果を使って傾きの精度の確率分布を作ってみましょう。

まず0を平均とするt分布表を作ります。

下図のように-8.2から0.1刻みでtを入力した後、対応するf(t)をエクセル関数

T.DIST(t値、自由度、FALSE)

で入力します。

t値は

t = x / (s /√n)

で定義されます。

s：不偏標準偏差

n：自由度

>> 【対応がある2郡】改善効果をt検定で検証する方法を具体例でわかりやすく解説します。

従って、傾きxは次式で表せます。

x=s･t /√n

ここで、sは標準誤差1.969008112、自由度はn-k-1＝18-1-1＝16ですので、xは次のように計算できます。

そしてxとf(x)の関係をグラフにすると次のようになります。

傾きの確率分布から分かること

これで傾きの確率分布のグラフができました。

傾きが10.03910416になる確率が一番高く、8以下になる確率はほぼ0であることが分かりますね。

ましてや傾きが0になることはないでしょう。

よって、下記のグラフにおいて回帰直線の傾きは正である、つまり視力と処理数は関係があるということがいえます。

注）このデータはエクセルの疑似乱数で作った架空のものです。

エクセルを使って正規分布の乱数を生成する方法をわかりやすく解説

作業品質を定量化する回帰,確率理論

Posted by ロジギーク