Bayesian Policy Search with Policy Priors のメモ
ここ1年ちょっと MCMC と強化学習をくっつける類の妄想にとらわれていたのだが,あんまり,その手の話は耳に入っていなかった.
# ここ二年半は完全に頭がノンパラメトリックベイズに始まるベイズへの傾倒中.
前出の annotated hierarchy や mondrian process などの物色中に,関連しそうな文献を発見したので読んでみた.
Bayesian Policy Search with Policy Priors
David Wingate, Noah D. Goodman, Daniel M. Roy, Leslie P. Kaelbling and Joshua B. Tenenbaum
Proc. Int. Joint Conf. on Artificial Intelligience (IJCAI), 2011.
http://www.stanford.edu/~ngoodman/papers/WingateEtAl-PolicyPrios.pdf
である. D. Roy はここのトコロ 連打で読ませていただいているMITの若手.
Kaelbling はかなり昔から強化学習で名前が出ているMITの先生ですね.
博士課程時代も文献読んで いろいろ勉強させていただいた気がします・・・・
さてさて,主なウリとしては 強化学習の Policy の学習に Priorr を入れることで,Transfer learning みたいなことが出来る
的な話なのだが,ポイントは,
1. 強化学習のPlanning optimization(学習)を Inference 問題に置き換えるところ
2. MCMC で推定するところ
だ.
1.については,過去の研究では 最尤推定に持って行って,EMアルゴリズムとつなげることが多いようだが,
それを事前分布を持つことで MAP推定に置き換えている.そして その御蔭でPrior の入り込む余地が生まれる.
ということのようだ.
1.Inference に置き換えるプロセスだが, ざくっというと 評価関数を expに置き換えて,無理やり
確率分布にしてしまう類のやつだ.僕もチャンク抽出でやったことがある.
数式的には本文引用だが
これがreference していた論文など.
ここでcomplete
ちなみに, Policy の改善は 新しい 方策を提案分布から提案し,価値関数から確率を出して
採択するかを決めるという メトロポリス・ヘイスティングス法を使っている.
このために,価値関数は求められる(!)という,仮定を入れている.
# 結構凄いな・・・
様々なprior を準備して,有効性を検討している.
Prior 間の比較はあるのだが,他手法との比較がないので,本手法のパワフルさはよくわからなかった.
MCMC を使った強化学習ということで,ちょっと面白くはあったし,
報酬値->価値関数を何とか確率モデルの中に包み込んでしまいたい
というモチベーションは一緒なので,こういうのをもっと進めていければとおもいますね.
僕としては行動生成の a の選択の乱択を上手く含められたらいいように思うんですがねー.
以下,本論文の関連でざっとよんだ.
Hierarchical POMDP Controller Optimization by Likelihood Maximization
Marc Toussaint et al. UAI ‘08
http://uai2008.cs.helsinki.fi/UAI_camera_ready/toussaint_revised.pdf
video lecture
http://videolectures.net/uai08_toussaint_hpco/
では Hierarchical finite state controller という方策器をEMアルゴリズムで最適化するという話.
トリックとしては,discount parameter を 徐々に長さを伸ばしていくDBNのmixtureを扱うというもの.
EMはlocal minimam にはまるよね.とは,言及している.
EMを使ったplanningを Marc Toussaintが示したのは,ICML 06
Probabilistic Inference for Solving Discrete and Continuous State Markov Decision Processes
Marc Toussaint and Amos Storkey
のようでした.
ここで, DBNのmixtureを扱うことを提案し MDPの場合に Planning を EMで解く方法を提案している.
コレはメモですので,
間違ってたらご指摘下さいませー.
Inference を使った強化学習では
Toussaint さんが activity高そうですね.