今日は、統計や機械学習をやっていると必ず出てくる確率変数の独立性と条件付き独立のお話です。
初学者の方が対象で、内容は言語処理のための機械学習入門 (自然言語処理シリーズ)という本に基づいております。今回は言語処理の話は一切出てきませんが、自然言語処理と機械学習に興味がある初学者の方にはおすすめの一冊です。
そもそも確率変数が独立ってどういうこと
(確率変数の独立性についてご存知の方はどうぞ読み飛ばしてください。)
2つの確率変数とを考えます。それぞれの任意の値(特定の値,についてではなく、あらゆると)について、が成立するとき、とは独立であるといいます。
この説明で終わってしまうと、独立性の有難みを感じられないので、式変形をしながら、掘り下げていきましょう。ここではのの部分を省略しています。
$$
P(x, y)=P(x)P(y)
$$
$$
\Leftrightarrow P(x|y)P(y)=P(x)P(y)
$$
$$
\Leftrightarrow P(x|y)=P(x)
$$
$$
(ただしP(y) \neq 0)
$$
(1つ目から2つ目の左辺の式変形は確率の乗法定理を使っています。)
さて、3つ目の式を見てみるとから条件部のが消えていますね。
独立性とは、要はの値が何であろうと、として何が出やすいかには影響しないということを意味しています。とが独立だと、考えることが少なくなって嬉しいわけです。
では条件付き独立とは何なのか
ここまで独立性の話をしてきましたが、この独立性が、ある条件が与えられた場合に成り立つというのが条件付き独立です。
例として、3つの確率変数, , を考えます。のある実現値に対し、との任意の値とについて
$$
P(X_1=x_1, X_2=x_2|x_3)=P(X_1=x_1|x_3)P(X_2=x_2|x_3)
$$
このような等式が成立するとき、「とはという条件のもとで条件付き独立である」といいます。が条件に与えられたことで、確率が積の形に分解されてますね。
もちろん、特定の値だけではなく、の任意の値についても同じような操作ができます。このとき、前者はという値、後者はという確率変数について述べていることになります。(どういう条件の下で独立であるかを意識することが大切です。)
ここまで、条件付き独立という仰々しい名前の割に大したことのない印象です。しかし、この話はとても大事です。
論文に載っている数式を追っていたら急に条件部から変数が消えて焦ったけど、よく考えたら条件付き独立が仮定されていた、なんてことはよくあります。
独立性についてのより丁寧な説明は、お馴染みの『プログラミングのための確率統計』などを参考にして頂ければと思います。今日もありがとうございました。
コメント