Bayesian Policy Search with Policy Priors のメモ « 谷口忠大HomePage (たにちゅーのＨＰ)

2025 年 8 月
月	火	水	木	金	土	日
« 1 月
	1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Bayesian Policy Search with Policy Priors のメモ

2012-05-05 (sat)｜カテゴリー：

研究

｜

ここ１年ちょっと MCMC と強化学習をくっつける類の妄想にとらわれていたのだが，あんまり，その手の話は耳に入っていなかった．

# ここ二年半は完全に頭がノンパラメトリックベイズに始まるベイズへの傾倒中．

前出の annotated hierarchy や mondrian process などの物色中に，関連しそうな文献を発見したので読んでみた．

Bayesian Policy Search with Policy Priors
David Wingate, Noah D. Goodman, Daniel M. Roy, Leslie P. Kaelbling and Joshua B. Tenenbaum

Proc. Int. Joint Conf. on Artificial Intelligience (IJCAI), 2011.

http://www.stanford.edu/~ngoodman/papers/WingateEtAl-PolicyPrios.pdf

である． D. Roy はここのトコロ連打で読ませていただいているMITの若手．

Kaelbling はかなり昔から強化学習で名前が出ているMITの先生ですね．

博士課程時代も文献読んでいろいろ勉強させていただいた気がします・・・・

さてさて，主なウリとしては強化学習の Policy の学習に Priorr を入れることで，Transfer learning みたいなことが出来る

的な話なのだが，ポイントは，

1. 強化学習のPlanning optimization（学習）を Inference 問題に置き換えるところ

2. MCMC で推定するところ

だ．

１．については，過去の研究では最尤推定に持って行って，EMアルゴリズムとつなげることが多いようだが，

それを事前分布を持つことで MAP推定に置き換えている．そしてその御蔭でPrior の入り込む余地が生まれる．

ということのようだ．

１．Inference に置き換えるプロセスだが，ざくっというと評価関数を expに置き換えて，無理やり

確率分布にしてしまう類のやつだ．僕もチャンク抽出でやったことがある．

数式的には本文引用だが

これがreference していた論文など．

ここでcomplete

ちなみに， Policy の改善は新しい方策を提案分布から提案し，価値関数から確率を出して

採択するかを決めるというメトロポリス・ヘイスティングス法を使っている．

このために，価値関数は求められる（！）という，仮定を入れている．

# 結構凄いな・・・

様々なprior を準備して，有効性を検討している．

Prior 間の比較はあるのだが，他手法との比較がないので，本手法のパワフルさはよくわからなかった．

MCMC を使った強化学習ということで，ちょっと面白くはあったし，

報酬値->価値関数を何とか確率モデルの中に包み込んでしまいたい

というモチベーションは一緒なので，こういうのをもっと進めていければとおもいますね．

僕としては行動生成の a の選択の乱択を上手く含められたらいいように思うんですがねー．

以下，本論文の関連でざっとよんだ．

Hierarchical POMDP Controller Optimization by Likelihood Maximization

Marc Toussaint et al. UAI ‘08

http://uai2008.cs.helsinki.fi/UAI_camera_ready/toussaint_revised.pdf

video lecture

http://videolectures.net/uai08_toussaint_hpco/

では Hierarchical finite state controller という方策器をEMアルゴリズムで最適化するという話．

トリックとしては，discount parameter を徐々に長さを伸ばしていくDBNのmixtureを扱うというもの．

EMはlocal minimam にはまるよね．とは，言及している．

EMを使ったplanningを Marc Toussaintが示したのは，ICML 06

Probabilistic Inference for Solving Discrete and Continuous State Markov Decision Processes

Marc Toussaint and Amos Storkey

のようでした．

http://eprints.pascal-network.org/archive/00003921/01/ToussaintStorkey2006ProbabilisticInferenceSolvingMDPs.pdf

ここで， DBNのmixtureを扱うことを提案し MDPの場合に Planning を EMで解く方法を提案している．

コレはメモですので，

間違ってたらご指摘下さいませー．

Inference を使った強化学習では

Toussaint さんが activity高そうですね．

« Variational MCMC のメモ

The Mondrian Process のメモ »

@tanichuをフォロー

tanichuの著作

たにちゅーの思惑｜谷口忠大Home Page（たにちゅー・どっと・こむ）

新着記事

最近のコメント

Bayesian Policy Search with Policy Priors のメモ

Hierarchical POMDP Controller Optimization by Likelihood Maximization