たにちゅーの思惑|谷口忠大Home Page(たにちゅー・どっと・こむ)

HOME > たにちゅーの思惑 >  TV・映画 > Q学習おそるるにたらず・・・・。

Q学習おそるるにたらず・・・・。

2005-06-09 (thu)|カテゴリー:

珍しく研究ネタです。



今日、離散空間、いわゆるGrid空間でのQ学習をプログラムしてみた。

今書いてる論文の簡単な例題として使うつもりだったんだけど。



いままで、強化学習は連続空間でしかやったことがないという、変わり者の

ワタクシ。



ヨノナカでは一番、このGrid空間って奴がやられてるんですが、

実際、プログラムしてみると

「めっちゃ簡単。」



連続空間で問題になるような学習における汎化性の問題なんて、しったこっちゃない

って感じで計算が収束していく・・・。



一日で、まとまった結果が出せてしまいました。あーこりゃこりゃ。



近々Q学習の連続空間への拡張をやるんだけど、まあ、その前哨戦といったところでしょうか?



ちなみに、elgibility traceを導入すると、ほとんど報酬分配の効果のないQ(λ)以外では

Q学習の本質的利点である、方策非依存性が消えてしまうことが発覚。 あー、そらそうか・・・・。

その辺の証明はわかってないので、上手く与える方法があるかもしれないけど、

ちょっと勉強セナならんなあ・・・。

コメントの投稿




*


下記のタグが使用できます。
<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong> <img localsrc="" alt=""> <pre lang="" line="" escaped="">

インフォメーション



tanichuの著作

copyright © Tadahiro Taniguchi All Right Reserved.