Q学習おそるるにたらず・・・・。 « 谷口忠大HomePage (たにちゅーのＨＰ)

2026 年 3 月
月	火	水	木	金	土	日
« 1 月
	1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

Q学習おそるるにたらず・・・・。

2005-06-09 (thu)｜カテゴリー：

TV・映画

｜

珍しく研究ネタです。

今日、離散空間、いわゆるGrid空間でのQ学習をプログラムしてみた。

今書いてる論文の簡単な例題として使うつもりだったんだけど。

いままで、強化学習は連続空間でしかやったことがないという、変わり者の

ワタクシ。

ヨノナカでは一番、このGrid空間って奴がやられてるんですが、

実際、プログラムしてみると

「めっちゃ簡単。」

連続空間で問題になるような学習における汎化性の問題なんて、しったこっちゃない

って感じで計算が収束していく・・・。

一日で、まとまった結果が出せてしまいました。あーこりゃこりゃ。

近々Q学習の連続空間への拡張をやるんだけど、まあ、その前哨戦といったところでしょうか？

ちなみに、elgibility traceを導入すると、ほとんど報酬分配の効果のないQ(λ)以外では

Q学習の本質的利点である、方策非依存性が消えてしまうことが発覚。あー、そらそうか・・・・。

その辺の証明はわかってないので、上手く与える方法があるかもしれないけど、

ちょっと勉強セナならんなあ・・・。