独立同一分布(i.i.d.)に従うってどういうことなんだ

確率統計

機械学習の解説なんかを読んでいると、不意に独立同一分布(i.i.d.)という単語に出くわすことがあります。
i.i.d.をネットでぱっと調べてもいまいちピンと来ず、平岡和幸氏著『プログラミングのための確率統計』 (P.102)を読んで腹落ちしたので、備忘録として残しておきます。
ほとんど引用ですが…。


では本題です。

1つの同じサイコロを20回振る場面を想像してください。ここでは、

1回目のサイコロの値を確率変数X_1

2回目のサイコロの値を確率変数X_2

...

20回目のサイコロの値を確率変数X_{20}

とおいて、X_1からX_{20}の20個の確率変数を考えます。

同じサイコロを振るので、1回目も2回目も...20回目も出る目の分布は同じです。つまり、1が出る確率は何回目だろうが1/6だし、2が出る確率も1/6、3が出る確率も...以下略です。
また、サイコロに変な細工をしない限り、1回目に何が出ようが2回目の結果には影響しません。言い換えると、何回目に何が出ようが、確率分布に影響はありません。

このとき1回目にx_1が出て、2回目にx_2が出て、…20回目にx_{20}が出る確率は

P(X_1=x_1, ..., X_{20}=x_{20})

= P(X_1=x_1)P(X_2=x_2)...P(X_{20}=x_{20})

と表せます。

このように確率変数X_1, ..., X_{20}について、個々の確率変数が従う確率分布(周辺確率)がどれも同じで、且つそれらが独立のとき、確率変数が独立同一分布に従うといいます。独立同一分布という分布が存在するわけではないので、ご注意ください。


プログラミングのための確率統計では、確率統計で登場する用語が直感的に分かりやすく解説されています。手元に置いておくと、いざという時に助けてくれる心強い味方です。

コンピュータサイエンスに携わる人のために書かれた確率統計の教科書。本書は、数式による定理の証明とその説明という数学教科書の一般的なスタイルとは異なったかたちで確率統計を解説している。

 

コメント