【Python】緑本こと『データ解析のための統計モデリング入門』を実装していく【第1章】

ゴールデンウイークですね。せっかくの長い休暇なので、私は兼ねてより興味があった「統計モデリング」に入門しようと思います。

教材はかの有名な緑本こと久保先生の『データ解析のための統計モデリング入門』。さすがに連休中には終わらなさそうですが、実装までやっていこうと思います。

ところで「統計モデル」とは何者なのか?

それは、観測されたデータにうまくあてはめられるような数理モデルであり、確率分布を使って観測データにおける「ばらつき」を上手く表現し、観測データの背後にある(データを生み出した)現象を説明するためのもの*1

複雑な現象を整然としたモデルで説明できるのが統計モデリング。ちなみに緑本では、統計モデルの中でも特に一般化線形モデルを学びます。

これはデータのばらつきに正規分布を仮定している線形モデルを正規分布以外の確率分布を扱うように拡張したもので、応用範囲が広いモデルなんだとか。

そんなこんなで、ご興味のある方はぜひこの機会に一緒に挑戦しましょう。長い旅になりそうですが…。

*1:今読んだ第1章に書いてた事を大雑把に纏めた。詳しい説明はhttps://en.wikipedia.org/wiki/Statistical_modelなどをご覧ください。

現象を数理モデルで表現・説明するのに慣れていない人のために、章ごとに異なる例題を解決していく過程を通して、統計モデルの基本となる考えかたを説明する。前半では、応用範囲のひろい統計モデルのひとつである一般化線形モデルの基礎を、後半では、実際のデータ解析に使えるように、それらをベイズ統計モデル化する方法を説明する。

 

コメント