確率と尤度の違いは何?具体例を挙げてわかりやすく解説します。
「確率」という言葉は私たちの日常でもよく使われますが、「尤度」はほとんど聞きません。
そもそも「ゆうど」と読めるだけでも奇跡でしょう。
そんな尤度ですが、これを理解すると統計を多角的に見れるようになります。
混同し易い確率との違いを見ていきましょう。
確率変数には2種類ある
確率質量関数と確率密度関数
尤度と確率の違いが分かるようになるためには、確率質量関数と確率密度関数とは何かを理解する必要があります。
本サイトで色々な確率分布の使い方を紹介していますが、確率分布には離散型と連続型があります。
>> 確率分布の使い方
離散型とは、確率事象が1、2、3、、、というように整数しか取らないもので、二項分布やポアソン分布などがそれです。
確率事象の例としては、勝ち/負けや人数などがあります。
それに対して、連続型では小数の確率事象も扱えます。
正規分布が有名な例です。
確率事象の例としては、身長や時間などがあります。
そして、離散型確率分布をモデル化した式を確率質量関数といい、連続型確率分布をモデル化した式を確率密度関数といいます。
例えば、二項分布を表すモデル式は
f(n,x)=n! / (n-x)!x! ×px×(1-p)(n-x)
ですが、これが確率質量関数です。
二項分布の公式の意味とExcelでグラフを描く2通りの方法を実演
また正規分布を表すモデル式は
ですが、これが確率密度関数です。
【標準偏差を使えば確率が分かる】標準正規分布表の使い方をわかりやすく解説
つまり、確率質量関数と確率密度関数も確率分布をモデル化した式という意味では、実質同じものです。
事象を表す変数とパラメータを表す変数
確率質量関数や確率密度関数には色々な記号が含まれていて難しそうに見えますが、これらの記号は事象を表す変数、パラメータを表す変数のどちらかです。
(πやeは定数なので除外します)
確率とは?
確率質量関数や確率密度関数の普通の使い方では、パラメータを決定して(定数にして)事象変数だけの関数にします。
そうすれば、事象変数に数字を入れれば、その事象が観察される確率を求められるからです。
正規分布の例でいうと、平均μと分散σを決定すれば確率密度関数の形が決まるので、後はxに数字を入れればxが観察される確率がf(x)として求まります。
事象が起こる可能性、これが確率です。
尤度とは?
これに対して、観察された事象からxを先に決定してしまって、パラメータだけの関数にする使い方もあります。
この場合には、確率質量関数や確率密度関数にパラメータの数字を入れたら、そのパラメータが正解である可能性を返してくれるようになります。
このパラメータが正解である可能性のことを尤度といいます。
パラメータが正解である可能性、これが尤度です。
つまり、確率質量関数や確率密度関数には2種類の変数があり、どちらの変数に焦点を当てるかにより確率と呼ぶか、尤度と呼ぶかが決まってくるのです。
具体例でイメージする
確率の具体例
イメージし易いように具体例を挙げましょう。
いかさまのないコインを100回投げて、55回表が出る確率は何%でしょうか?
これに即答できる人は天才です。
確率質量関数を使わないと分かりません。
これは二項分布でモデル化できますので、
f(n,x)=n! / (n-x)!x! ×px×(1-p)(n-x)
に当てはめます。
n=100,x=55、p=0.5を代入すると、
f(100,55)=100! / (100-55)!55! ×0.555×(1-0.5)(100-45)
= 0.048
となり、4.8%です。
ここでやったことは、神のみぞ知るパラメータpを0.5と決めて、事象(n,x)が起こる可能性(=確率)を計算しています。
試しにnを100回で固定して、表が出る回数xが1~100回になる確率をまとめて計算してみましょう。
Excelで次のように計算できます。
グラフにするとこうなります。
ここでやったことが、パラメータを決めて事象変数の確率を求めることです。
尤度の具体例
次に、逆のことをやってみます。
事象変数を決めてパラメータの尤度を求めてみます。
この場合の事象変数はnとxですから、観察の結果n=100、x=55だったとしましょう。
この時、パラメータpが0.5、つまりいかさまコインではない可能性を計算してみます。
先ほどと同じ二項分布の確率質量関数の式に代入すると、次のように計算できます。
f(100,55)
=100! / (100-55)!55! ×0.555×(1-0.5)(100-45)
= 0.048
なんと、先ほどと同じ4.8%になりました。
それもそのはず、同じことを別の見方をしているだけだからです。
先ほどは、p=50%のコインを100回投げて55回表が出る可能性が4.8%といっています。
それに対して今回は、100回投げて55回表が出た時に、p=50%のコインである可能性が4.8%であることをいっています。
前者はパラメータpを固定して事象(n,x)になる確率を求めていて、後者は事象(n,x)を固定してパラメータpの尤度を求めていますが、結局は同じことをいっているのです。
ちなみに、この尤度についても色々なpについて求めてみると、次のようになります。
また、グラフにするとこうなります。
この尤度のグラフは先ほどの確率のグラフととてもよく似ていますね。
確率質量関数を事象変数の関数としてみるか、パラメータの関数としてみるかの違いです。
それは横軸を見れば分かりますね。
まとめ
確率分布には離散型、連続型の2種類があります。
離散型確率分布のモデル式のことを確率質量関数、連続型確率分布のモデル式を確率密度関数といいます。
どちらの関数にも2種類の変数が含まれています。
事象変数とパラメータです。
事象変数が起こる可能性のことを確率といい、パラメータが起こる可能性(正解である可能性)のことを尤度といいます。
私たちがよく耳にするのは確率ですが、尤度は滅多に聞きません。
なぜでしょうか?
確率質量関数や確率密度関数ではパラメータを決めないと確率は求められないので、まずは尤度が一番高いパラメータを探し出す必要があります。
なので、尤度を求めることは確率を求めることと同じくらい重要なはずです。
それなのになぜ尤度は日の目を見ないのでしょうか?
それは簡単だからです!
事象の観測データがある時に、一番尤度が高いパラメータを求めることは、多くの場合とても簡単なのです。
例えば、100,000回投げて60,000回表が出るコインがあったとしたら、そのコインは表が60%の確率で出るように細工されたいかさまコインであると思うでしょう?
これは、パラメータpが0.6である尤度が最も高いと考えていることと同じです。
実際、この考え方で合っています。
私たちは無意識のうちに、このような判断をしているのです!
ちなみに、尤度が最も高いパラメータを求めることを最尤推定といいますが、多くの場合、このように簡単に計算できてしまうのです。
これが、私たちが普段から尤度を耳にしない理由です。
ただ、中には難しい計算をしないと解けない最尤推定の問題もあります。
また、最尤推定は最近流行のベイズ推定にも通じる考え方なので、今後は尤度という言葉が広まっていくのではないかと管理人は予想しています。
MAP推定と最尤推定の違いをプロ野球の勝率予測でわかりやすく解説