The Infinite Partially Observable Markov Decision Process　のメモ « 谷口忠大HomePage (たにちゅーのＨＰ)

2026 年 3 月
月	火	水	木	金	土	日
« 1 月
	1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

The Infinite Partially Observable Markov Decision Process　のメモ

2012-04-19 (thu)｜カテゴリー：

研究

｜

これまたTehさんの

Modern Bayesian Nonparametrics.

http://www.gatsby.ucl.ac.uk/~ywteh/teaching/npbayes.html

の影響で読んでみた．

The Infinite Partially Observable Markov Decision Process

F Doshi-Velez

NIPS2009 http://nips.cc/Conferences/2009/Program/event.php?ID=1643

ですね．

POMDPは強化学習でよく仮定する MDPと違い，状態s_t が直接観測できないという仮定のもの．

歴史的にPOMDPと呼ばれるが，個人的にはHidden MDPとでも呼んでみたい気がしますが，

まぁ，そういうものです．

銅谷先生らのモジュール型強化学習などをイジっていた身としては，

Dirichlet Process mixture が出てきた段階から，まぁ，連続状態変数を隠れ状態からの出力分布でとらえて

その上で強化学習とかしたいよね．とか思っていたわけなんですが，

まぁ，そんな感じのモデルです．

まだ，Theoreticalな部分先行で実ロボットでどうこうという話ではない．

内容は基本的部分はシンプルで，

DPで隠れ状態 s_t が生成されると，

それらが，iHMMよろしくで， s,a の条件の下で DPから生成された多項分布（つまりは，遷移確率行列）で次の状態にトランジションする．

また，観測o ,報酬 r がそれぞれの s,a に対しての分布として生成されますよという生成過程

とってもagree な内容となっております．

で，このあたりはいいのですが，

やっぱり，ただでさえ，学習に時間がかかったりする強化学習さらにPOMDP．

Action Selectionの方が大変になっています．

実際には，belief を求めるのも，複数のモデルをサンプルしてその上での信念分布を考えて

これの重ねあわせで考える． Q値も同様に考えるといった，近似を導入しています．

このあたりは，個人的には苦しそうな印象．

また，最適政策も求めにくいので，

Given a set of models, we apply a stochastic forward search in the model-space to choose an action.
The general idea behind forward search [14] is to use a forward-looking tree to compute the value
of each action.

ということで，フォワード探索で頑張って決めていきます．

実験では，ちゃんと動くぞ，というのを示していますが，

確かに状態数の推定はいいのですが，

そこからの強化学習としての方策生成まで，うまくつなげて綺麗な理論にするのは大変やなぁと思いました．

ただ，ノンパラベイズからの強化学習へのアプローチとしては，非常に素直だとおもうので，一読の価値はあるかと．

POMDPやんなきゃ感カンジテル・・・・

※本メモは大いに間違っている可能性もあるので，間違いに気づかれた方は，心優しくツッコんでください．

たにちゅー+Rやで（谷口忠大） ‏ @tanichu

強化学習 Natural Actor-Critic が流行っていたあたりつまみ食いした以降はちょっとサボっていました．現状はどうなっているんでしょうね．

8:51 PM - 18 Apr 12 via TweetDeck · Details

たにちゅー+Rやで（谷口忠大） ‏ @tanichu

POMDPとSLAMの関係について．

8:49 PM - 18 Apr 12 via TweetDeck · Details

たにちゅー+Rやで（谷口忠大） ‏ @tanichu

しかしまあ，どんだけ tractable になっているかって話ですね．不確実性のある実空間で行動意思決定するとなったら，教師なしのモデリングつかった認識の話だけでなくやっぱ，強化学習は入れたくなるのが人情．ノンパラベイズ強化学習はやってる人はそんなにおおくないのかな．

8:41 PM - 18 Apr 12 via TweetDeck · Details

たにちゅー+Rやで（谷口忠大） ‏ @tanichu

Partially Observable Markov Decision Process ね POMDP ．昔は確定的なちょいヒューリスティックっぽい話がおおかった気がしたけど，こんだけベイズがしっかりしてきたら，綺麗な話になってきているのね．

8:40 PM - 18 Apr 12 via TweetDeck · Details

たにちゅー+Rやで（谷口忠大） ‏ @tanichu

POMDPとか，久しぶりに読んでいる．

8:36 PM - 18 Apr 12 via TweetDeck · Details

« Bayesian Rose Trees のメモ

Hierarchical Topic Models and the Nested Chinese Restaurant Process のメモ »

@tanichuをフォロー

tanichuの著作

たにちゅーの思惑｜谷口忠大Home Page（たにちゅー・どっと・こむ）

新着記事

最近のコメント