条件付き独立ってどういうことなんだ【確率統計】

今日は、統計や機械学習をやっていると必ず出てくる独立性のお話です。

初学者の方が対象で、内容は言語処理のための機械学習入門 (自然言語処理シリーズ)という本に基づいております。ここでは言語処理の話は一切出てきませんが…。

(自然言語処理と機械学習に興味がある初学者の方におすすめの一冊です。)


そもそも確率変数が独立ってどういうこと

2つの確率変数 X Yを考えます。それぞれの任意の値(特定の値 x, yについてではなく、あらゆる x y)について、 P(X=x, Y=y)=P(X=x)P(Y=y)が成立するとき、 X Yは独立であるといいます。

この説明で終わってしまうと、独立性の有難みを感じられないので、式変形をしながら、掘り下げていきましょう。(ここでは P(X=x) X=の部分を省略しています。)

$$
P(x, y)=P(x)P(y)
$$
$$
\Leftrightarrow P(x|y)P(y)=P(x)P(y)
$$
$$
\Leftrightarrow P(x|y)=P(x)
$$
$$
(ただしP(y) \neq 0)
$$

3つ目の式を見てみると P(x|y)から条件部の yが消えていますね。独立性とは、要は Yの値が何であろうと、 Xとして何が出やすいかには影響しないということを意味しています。 X Yが独立だと、考えることが少なくなって嬉しいわけです。

では条件付き独立とは何なのか

ここまで独立性の話をしてきましたが、この独立性が、ある条件が与えられた場合に成り立つというのが条件付き独立です。

例として、3つの確率変数 X_1,  X_2,  X_3を考えます。 X_3のある実現値 x_3に対し、 X_1 X_2の任意の値 x_1 x_2について

$$
P(X_1=x_1, X_2=x_2|x_3)=P(X_1=x_1|x_3)P(X_2=x_2|x_3)
$$

このような等式が成立するとき、「 X_1 X_2 X_3=x_3という条件のもとで条件付き独立である」といいます。 x_3が条件に与えられたことで、確率が積の形に分解されてますね。

もちろん、特定の値 x_3だけではなく、 X_3の任意の値についても同じような操作ができます。このとき、前者は x_3という値、後者は X_3という確率変数について述べていることになります。(どういう条件の下で独立であるかを意識することが大切です。)

ここまで、条件付き独立という仰々しい名前の割に大したことのない印象です。しかし、この話はとても大事です。グラフィカルモデル*1などを学びはじめると、この有難さが身に染みることでしょう…。


独立性のより丁寧な説明については、お馴染みの『プログラミングのための確率統計』などを参考にして頂ければと思います。今日もありがとうございました。

*1:機械学習やベイズ統計を学び進めていくとそのうち出現します…。

自然言語処理における機械学習の利用について理解するため,その基礎的な考え方を伝えることを目的としている。広大な同分野の中から厳選された必須知識が記述されており,論文や解説書を手に取る前にぜひ目を通したい一冊である。

コメント