「尤度とは、尤もらしさのことである。」と説明されても、何がどうもっともらしいのかよく分からない…。この記事では、尤度の意味を具体例を挙げて詳しく説明していきます。
(内容は統計モデリングのベストセラーであるデータ解析のための統計モデリング入門を参考にしています。説明の都合上端折っている部分もありますので、厳密な説明は本家をチェックして頂ければ幸いです。)
前提
手元に観測データ$\{y_1, y_2, y_{50}\}= \{2, 2, ...,4\}$があるとします。何でもいいんですが、例えば、ある植物から採取した種子の数だと考えましょう。
今私たちは、その植物から得られる種子数の真の確率分布(得られる種子数が0個の確率は0.03、1個の確率は0.10みたいな真の対応関係)を求めたいとしましょう。
残念ながら、真の分布というものは我々人間には直接知る術はなく、観測データから推定せざるを得ません。
このとき、手元の観測データを詳しく調べると、その特徴からどうやら真の分布がポアソン分布(の確率(質量)関数)$$p(y|\lambda) = \frac{\lambda^{y} exp(-\lambda)}{y!} $$を使って表せそうだと気づいたとします($p(y|\lambda)$はパラメータが$\lambda$のポアソン分布に従う確率変数が、$y$という値をとる確率を表します。)。
(観測データを詳しく調べる過程に興味がある方は、こちらの記事を見て頂ければと思います。)
本題
さて、ようやく本題の尤度の説明ですが、実は尤度というのは
$$
L(\lambda)
= \prod_{i} {p(y_i|\lambda)}
= \prod_{i} \frac{\lambda^{y} exp(-\lambda)}{y!}
$$
上記のような関数のことでして、要はパラメータをある値と決めたときの(パラメータは未知だから、とりあえず任意の値をおく)、全ての標本についての確率関数値の総積です。
シンプルな例を挙げると、手元に観測データ$\{y_1, y_2, y_3\}= \{2, 2, 4\}$を持っているとして、$\lambda=3.56$と置いたとします。
観測データが$\lambda=3.56$ のポアソン分布に従う確率は、ゴリゴリ計算することで$p(y_1=2|\lambda=3.56)=0.180$、$p(y_2=2|\lambda=3.56)=0.180$、$p(y_3=4|\lambda=3.56)=0.190$
だと求められます。
すると尤度は、$0.180 \times 0.180 \times 0.90 = 0.006156$だと計算できるわけです。
これをあえて「尤もらしさ」という言葉を使って説明するなら、「パラメータが$\lambda$の確率関数に従う確率分布から、手元の観測データが得られる尤もらしさ」とでも言いましょうか。こんな回りくどい説明よりは、数式で把握した方がよっぽど明瞭ですが…。
ところで、$\lambda$はどうやって決めるの?$\lambda$に片っ端から実数を当てはめていたら日が暮れるよね?と疑問に思う方もいるかと思います。
そのあたりは話し出すと長くなるので、興味のある方は「最尤推定」でググるなり、緑本をチェックして頂ければと思います。
お付き合いいただきまして、ありがとうございました。
コメント