尤度の意味を具体例で理解する【機械学習・統計学】

確率統計

「尤度とは、尤もらしさのことである。」と説明されても、何がどうもっともらしいのかよく分からない…。この記事では、尤度の意味を具体例を挙げて詳しく説明していきます。

(内容は統計モデリングのベストセラーであるデータ解析のための統計モデリング入門を参考にしています。説明の都合上端折っている部分もありますので、厳密な説明は本家をチェックして頂ければ幸いです。)

前提

手元に観測データ$\{y_1, y_2, y_{50}\}= \{2, 2, ...,4\}$があるとします。何でもいいんですが、例えば、ある植物から採取した種子の数だと考えましょう。

今私たちは、その植物から得られる種子数の真の確率分布(得られる種子数が0個の確率は0.03、1個の確率は0.10みたいな真の対応関係)を求めたいとしましょう。

残念ながら、真の分布というものは我々人間には直接知る術はなく、観測データから推定せざるを得ません。

このとき、手元の観測データを詳しく調べると、その特徴からどうやら真の分布がポアソン分布(の確率(質量)関数)$$p(y|\lambda) = \frac{\lambda^{y} exp(-\lambda)}{y!} $$を使って表せそうだと気づいたとします($p(y|\lambda)$はパラメータが$\lambda$のポアソン分布に従う確率変数が、$y$という値をとる確率を表します。)。

(観測データを詳しく調べる過程に興味がある方は、こちらの記事を見て頂ければと思います。)

本題

さて、ようやく本題の尤度の説明ですが、実は尤度というのは

$$
L(\lambda)
= \prod_{i} {p(y_i|\lambda)}
= \prod_{i} \frac{\lambda^{y} exp(-\lambda)}{y!}
$$

上記のような関数のことでして、要はパラメータをある値と決めたときの(パラメータは未知だから、とりあえず任意の値をおく)、全ての標本についての確率関数値の総積です。

 

シンプルな例を挙げると、手元に観測データ$\{y_1, y_2, y_3\}= \{2, 2, 4\}$を持っているとして、$\lambda=3.56$と置いたとします。

観測データが$\lambda=3.56$ のポアソン分布に従う確率は、ゴリゴリ計算することで$p(y_1=2|\lambda=3.56)=0.180$、$p(y_2=2|\lambda=3.56)=0.180$、$p(y_3=4|\lambda=3.56)=0.190$
だと求められます。

すると尤度は、$0.180 \times 0.180 \times 0.90 = 0.006156$だと計算できるわけです。

 

これをあえて「尤もらしさ」という言葉を使って説明するなら、「パラメータが$\lambda$の確率関数に従う確率分布から、手元の観測データが得られる尤もらしさ」とでも言いましょうか。こんな回りくどい説明よりは、数式で把握した方がよっぽど明瞭ですが…。

ところで、$\lambda$はどうやって決めるの?$\lambda$に片っ端から実数を当てはめていたら日が暮れるよね?と疑問に思う方もいるかと思います。

そのあたりは話し出すと長くなるので、興味のある方は「最尤推定」でググるなり、緑本をチェックして頂ければと思います。

お付き合いいただきまして、ありがとうございました。

現象を数理モデルで表現・説明するのに慣れていない人のために、章ごとに異なる例題を解決していく過程を通して、統計モデルの基本となる考えかたを説明する。前半では、応用範囲のひろい統計モデルのひとつである一般化線形モデルの基礎を、後半では、実際のデータ解析に使えるように、それらをベイズ統計モデル化する方法を説明する。

コメント