たにちゅーの思惑|谷口忠大Home Page(たにちゅー・どっと・こむ)

たにちゅーの思惑|谷口忠大Home Page(たにちゅー・どっと・こむ)

たにちゅーの思惑|谷口忠大Home Page(たにちゅー・どっと・こむ)

2012 年 5 月
« 4 月    
 123456
78910111213
14151617181920
21222324252627
28293031  

新着記事

最近のコメント

HOME  > たにちゅー思惑 > TV・映画

Q学習おそるるにたらず・・・・。

2005-06-09 (thu)|カテゴリー:コメント:0

珍しく研究ネタです。



今日、離散空間、いわゆるGrid空間でのQ学習をプログラムしてみた。

今書いてる論文の簡単な例題として使うつもりだったんだけど。



いままで、強化学習は連続空間でしかやったことがないという、変わり者の

ワタクシ。



ヨノナカでは一番、このGrid空間って奴がやられてるんですが、

実際、プログラムしてみると

「めっちゃ簡単。」



連続空間で問題になるような学習における汎化性の問題なんて、しったこっちゃない

って感じで計算が収束していく・・・。



一日で、まとまった結果が出せてしまいました。あーこりゃこりゃ。



近々Q学習の連続空間への拡張をやるんだけど、まあ、その前哨戦といったところでしょうか?



ちなみに、elgibility traceを導入すると、ほとんど報酬分配の効果のないQ(λ)以外では

Q学習の本質的利点である、方策非依存性が消えてしまうことが発覚。 あー、そらそうか・・・・。

その辺の証明はわかってないので、上手く与える方法があるかもしれないけど、

ちょっと勉強セナならんなあ・・・。

就職????

2005-05-24  (tue)|カテゴリー:コメント:0

昨日、生まれて初めて、人からスカウトされる感じのことがあった。

具体的にはこんな場所ではいえないけど。

スゲーうれしかった。



でも、諸般の事情でオコトワリすることにしたんだけど。

がんばってれば誰かみててくれるのかな、って感じでした。



ご期待に沿えるように研究もがんばりたいと思います。

まだみぬ世界と平穏な暮らしのために。

3本目のジャーナル投稿

2005-05-24  (tue)|カテゴリー:コメント:0

博士号をとるのに必要なジャーナル3本目の投稿を昨日完了しました。

タイトルは「汎化行為概念の適応的獲得 -双シェマモデルベースの強化学習-」です。

双シェマモデルってのは相変わらず、僕が作ってる学習機構なんだけど、

今回はそれに強化学習を乗っけて、銅谷らのとはまた違うモジュール型強化学習を

つくったってところかな?



これで、とりあえずひと段落つけて、カナダに新婚旅行にいけます。

しかーし、

投稿段階で、ページ数超過に気づき、後半部分を別項に分割することに

なりました。

つーわけで、すぐにでも4本目を書かなければならない状況なのです。

ひとだんらくついたのか、ついてないのか・・・。

タイトルもモトは「汎化行為概念の累増的獲得」だったんですけどね。

4本目書き始めました。

恋におちたら

2005-05-20 (fri)|カテゴリー:コメント:2

だっけ?

木曜やってる草薙君のドラマ。



その主題歌をクリスタルケイがうたってるんだけど、なかなかいいね。



久しぶりにええかんじの難しさの曲でございます。

ヨメに習得してほしい感じだわ。



ドラマも面白いし。



ヒロインの女優さん。とても20歳とはおもえへんね。

すごい、キレイカワイイ役をやってはります。

日本的だ・・・。

CDゲットしよかしら。



クリスタルケイは今まで余り、上手さが先にたって、歌としての魅力を

余り感じなかったけど、今回はいい感じの調和をみせてるなとおもったとさ。

ドラマタイアップの効果もおおきいけど。

 Page 12 of 12  « First  ... « 8  9  10  11  12 

インフォメーション



copyright © Tadahiro Taniguchi All Right Reserved.