Re:ゼロから始めるML生活

Standing on the shoulders of Giants

最尤推定/MAP推定/ベイズ推定についてのメモ

最近はこの辺の本を読んだりして機械学習の勉強してます。

トピックモデル (機械学習プロフェッショナルシリーズ)

トピックモデル (機械学習プロフェッショナルシリーズ)

  • 作者:岩田 具治
  • 出版社/メーカー: 講談社
  • 発売日: 2015/04/08
  • メディア: 単行本(ソフトカバー)

推薦システム: 統計的機械学習の理論と実践

推薦システム: 統計的機械学習の理論と実践

これらを読み進める上で、よくわからなくなって最近読んでるのはこちらです。

しくみがわかるベイズ統計と機械学習

しくみがわかるベイズ統計と機械学習

  • 作者:手塚 太郎
  • 出版社/メーカー: 朝倉書店
  • 発売日: 2019/11/01
  • メディア: 単行本(ソフトカバー)

ド素人なんで、色々わかんないことはたくさん出てきます。 今回は、「最尤推定とMAP推定、ベイズ推定って何が違うんじゃい?」てな感じでわからなくなったので、その辺をまとめます。

尤度について

尤度(尤度関数)は、観測値xに基づく\thetaの各値の尤もらしさを表す関数であり、式で書くとこんな感じです。


p(x|\theta) = \prod^{n}_{i=1}p(x^{(i)}|\theta)

詳しくは過去に記事を書いたので割愛。

www.nogawanogawa.com

最尤推定

定義

最尤推定(さいゆうすいてい、英: maximum likelihood estimation、略してMLEともいう)や最尤法(さいゆうほう、英: method of maximum likelihood)とは、統計学において、与えられたデータからそれが従う確率分布の母数を点推定する方法である。 wikipedia

もう少し詳しく説明

最尤推定は、尤度関数が最大になるような最尤推定量\thetaを求めることです。 前と同じくコインの裏表の回数について考えれば、最尤推定では与えられた観測値から尤度関数を求め、その尤度関数を最大にする最尤推定量を求めます。

MAP推定

定義

最大事後確率(さいだいじごかくりつ、英: maximum a posteriori, MAP)推定は、統計学において、実測データに基づいて未知の量の点推定を行う手法である。ロナルド・フィッシャーの最尤推定 (MLE) に密接に関連するが、推定したい量の事前分布を利用して最適化問題を解き確率が最大の結果を得る。したがってMAP推定は、最尤推定に正則化をつけた物と見ることもできる。 wikipedia

もう少し詳しく説明

最尤推定では観測値だけを使用して最尤推定量を求めており、パラメータの事前分布は考慮されていませんでした。 逆にMAP推定では、データの量を考慮できるように、潜在変数であるパラメータも確率変数として扱います。

MAP(最大事後確率)推定と言うだけあって、MAP推定では事後確率を最大にする推定量を求めます。


\hat{\theta}_{MAP} = arg max_{\theta} \frac{p(x|\theta)p(\theta)}{p(x)}

これによって、観測値が少ない状況であっても、p(\theta)の分布という事前知識を使用することができるため、観測値のデータ量が少ないことに起因する推定を補正する事ができます。

ベイズ推定

定義

ベイズ推定(ベイズすいてい、英: Bayesian inference)とは、ベイズ確率の考え方に基づき、観測事象(観測された事実)から、推定したい事柄(それの起因である原因事象)を、確率的な意味で推論することを指す。 wikipedia

もう少し詳しく説明

MAP推定量を使う場合には、事後確率を最大にするようにパラメータを設定しました。 しかし、これだと事後確率の分布形状の情報が加味されていないということになります。

ベイズ推定では、事後分布の形状を活用して期待値を計算することでパラメータを求めます。


\hat{\theta} = \mathbb{E}_{(\theta|x)}
[\theta]
 = \int \theta_p(\theta|x) d\theta

これによって、事後分布の形状を考慮したパラメータを設定することができます。

まとめ

  • 最尤推定では尤度関数を最大にするパラメータを求める
  • 最尤推定では事前分布が考慮されていないため、MAP推定では事前分布を導入して事後分布を最大化するようにパラメータを設定する
  • MAP推定では事後分布を最大にするようにパラメータを設定するため事後分布の形状が考慮されていないため、ベイズ推定では事後分布をもとに期待値を算出することでパラメータを設定する

こんな感じですかね。式の導出を追っかけていて、解釈がよくわからなくなったので、そのメモでした。