条件付き独立ってどういうことなんだ【確率統計】

今日は、統計や機械学習をやっていると必ず出てくる確率変数の独立性と条件付き独立のお話です。

初学者の方が対象で、内容は言語処理のための機械学習入門 (自然言語処理シリーズ)という本に基づいております。今回は言語処理の話は一切出てきませんが、自然言語処理と機械学習に興味がある初学者の方にはおすすめの一冊です。




そもそも確率変数が独立ってどういうこと

(確率変数の独立性についてご存知の方はどうぞ読み飛ばしてください。)

2つの確率変数 X Yを考えます。それぞれの任意の値(特定の値 x, yについてではなく、あらゆる x y)について、 P(X=x, Y=y)=P(X=x)P(Y=y)が成立するとき、 X Yは独立であるといいます。

この説明で終わってしまうと、独立性の有難みを感じられないので、式変形をしながら、掘り下げていきましょう。ここでは P(X=x) X=の部分を省略しています。

$$
P(x, y)=P(x)P(y)
$$
$$
\Leftrightarrow P(x|y)P(y)=P(x)P(y)
$$
$$
\Leftrightarrow P(x|y)=P(x)
$$
$$
(ただしP(y) \neq 0)
$$

(1つ目から2つ目の左辺の式変形は確率の乗法定理を使っています。)

さて、3つ目の式を見てみると P(x|y)から条件部の yが消えていますね。

独立性とは、要は Yの値が何であろうと、 Xとして何が出やすいかには影響しないということを意味しています。 X Yが独立だと、考えることが少なくなって嬉しいわけです。

では条件付き独立とは何なのか

ここまで独立性の話をしてきましたが、この独立性が、ある条件が与えられた場合に成り立つというのが条件付き独立です。

例として、3つの確率変数 X_1,  X_2,  X_3を考えます。 X_3のある実現値 x_3に対し、 X_1 X_2の任意の値 x_1 x_2について

$$
P(X_1=x_1, X_2=x_2|x_3)=P(X_1=x_1|x_3)P(X_2=x_2|x_3)
$$

このような等式が成立するとき、「 X_1 X_2 X_3=x_3という条件のもとで条件付き独立である」といいます。 x_3が条件に与えられたことで、確率が積の形に分解されてますね。

もちろん、特定の値 x_3だけではなく、 X_3の任意の値についても同じような操作ができます。このとき、前者は x_3という値、後者は X_3という確率変数について述べていることになります。(どういう条件の下で独立であるかを意識することが大切です。)

ここまで、条件付き独立という仰々しい名前の割に大したことのない印象です。しかし、この話はとても大事です。

論文に載っている数式を追っていたら急に条件部から変数が消えて焦ったけど、よく考えたら条件付き独立が仮定されていた、なんてことはよくあります。


独立性についてのより丁寧な説明は、お馴染みの『プログラミングのための確率統計』などを参考にして頂ければと思います。今日もありがとうございました。

自然言語処理における機械学習の利用について理解するため,その基礎的な考え方を伝えることを目的としている。広大な同分野の中から厳選された必須知識が記述されており,論文や解説書を手に取る前にぜひ目を通したい一冊である。
コンピュータサイエンスに携わる人のために書かれた確率統計の教科書。本書は、数式による定理の証明とその説明という数学教科書の一般的なスタイルとは異なったかたちで確率統計を解説している。

コメント