ベイズ統計と確率的プログラミング言語(PPL)に関するオンライン勉強会の動画がとても良かったので、その紹介です。
一番最初の須山さんの発表は、ベイズとPPL初心者の方にはとても参考になると思います。
個人的には須山さんの著書を読了しているので既知の内容が多かったですが、説明が分かりやすく良い復習になりました。
また、QAセッションが非常に勉強になったので、そのときのメモ(主に須山さんのアンサー)をここに残しておきます。[1]私のメモに誤りがある可能性があるので、ぜひ本家をご参照ください。

→SVMのようなツールボックスの手法でも背後に生成過程を仮定している。生成過程を厳格に仮定できなくても、正規分布のような緩い仮定を置くことでベイズモデリングできる。

→厳格な仮定が置けないケースは当然ある。列数の多いテーブルデータに対しても、多変量解析の線形回帰や非線形のガウス過程を使えばいい。データが連続値/離散値だとか多重共線性などの仮定できる知識が少しでもあるならば、それをモデルに反映させるべき。

→タスクや目的によりけりだが、ツールボックスの機械学習と一緒でクロスバリゼーションが一番シンプル。周辺尤度やWAICを比較するのも使える。

→ベイズはそもそもユーザーが少ない。ベイズは精度ばかりが目的でない。短時間で数値を出すならツールボックス的なアプローチに分があるかも。教師無しのケースで工夫するならベイズモデルに分があるかも。

→ベイズは周辺確率と条件付き確率の計算のみなので、そもそもfitさせようとしていない。(最小二乗法とかは、目的関数を最小化したりしてフィットしている。)
その他のセッションで参考になったQAについてのメモも残しておきます。

→モデルが複雑になると、(初期値依存が強いから?)チェイン数やRハットはあてにならない。

→定量的に評価する方法もなくはないと思うが、それに頼るのもどうかなっていう感じ。結果を解釈してみて、見えたものに納得感があるかというのも、必要になってくる。どう説得するかはベイズモデルに限らず、統計の永遠の課題。

→まとまり(グループ)が見えればそれを使う。他のデータとの類似性などに着目する。
注釈
↩1 | 私のメモに誤りがある可能性があるので、ぜひ本家をご参照ください。 |
---|
コメント