Q学習おそるるにたらず・・・・。
珍しく研究ネタです。
今日、離散空間、いわゆるGrid空間でのQ学習をプログラムしてみた。
今書いてる論文の簡単な例題として使うつもりだったんだけど。
いままで、強化学習は連続空間でしかやったことがないという、変わり者の
ワタクシ。
ヨノナカでは一番、このGrid空間って奴がやられてるんですが、
実際、プログラムしてみると
「めっちゃ簡単。」
連続空間で問題になるような学習における汎化性の問題なんて、しったこっちゃない
って感じで計算が収束していく・・・。
一日で、まとまった結果が出せてしまいました。あーこりゃこりゃ。
近々Q学習の連続空間への拡張をやるんだけど、まあ、その前哨戦といったところでしょうか?
ちなみに、elgibility traceを導入すると、ほとんど報酬分配の効果のないQ(λ)以外では
Q学習の本質的利点である、方策非依存性が消えてしまうことが発覚。
あー、そらそうか・・・・。
その辺の証明はわかってないので、上手く与える方法があるかもしれないけど、
ちょっと勉強セナならんなあ・・・。