「強化学習」：Suttonがネーミングを滅多斬り « 谷口忠大HomePage (たにちゅーのＨＰ)

2025 年 7 月
月	火	水	木	金	土	日
« 1 月
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

「強化学習」：Suttonがネーミングを滅多斬り

2006-06-04 (sun)｜カテゴリー：

TV・映画

｜

カンファレンス会場がネットにつながるので，合間合間にサーフィンしてます．

そこで，強化学習について大御所Suttonが書いてる文の和訳を発見しました．

（多分有名なんだろうけど，僕はしらんかった．）

ちょっとイカスので引用

－－－－－－－－－－－－－

Ｑ．強化学習はニューロ動的計画法とどのように関係がありますか?

Ａ．まず大雑把に言えば，強化学習とニューロ動的計画法(Neuro-Dynamic Programming)は同義です．「強化学習」という名称は心理学から来ており(心理学者がこの用語そのものを使うことは稀ですが)，サイバネティクスの初期に遡ります．例えば， Marvin Minsky は彼の 1954 年の論文でこの語を用い，また Barto と Sutton は1980年代の初めにこれを甦らせました．「ニューロ動的計画法」の名称は，この分野をニューラルネットワークと動的計画法の組合せとしてとらえるために，1996 年に Bertsekas と Tsitsiklis によって作られました．

実際にはどちらもあまりこのテーマをよく表しているわけではなく，技術的に正確を期する場合にはどちらも使わないことをおすすめします．このような名前は研究の一般的な主部を参照する場合には便利ですが，概念を注意深く他の概念と区別するのには向きません．その意味では，これらの 2 つの名称が指すものを注意深く区別しようとするのは無駄なことです．

「強化学習」という用語が問題なのは，それが時代遅れだということです．強化学習のほとんど分野は学習には全く関わりはなく，単に問題に対する完全な知識(環境のモデル)からのプランニングに関わりがあるだけです．プランニングと学習に対してほとんど同じ方法が使われていて，この分野の名前で「学習」を強調しているのは的外れのように見えます．「強化」の語もまた，特に適切であるとは思えません．

「ニューロ動的計画法」の名前も同様に問題であるのは，ニューラルネットワークも動的計画法もこの分野にとって重要ではないという点です．モンテカルロ法やロールアウト法といった多くの方法は動的計画法とは全く関係なく，ニューラルネットワークは多くの関数近似方法のうちの一つの選択肢にすぎません．さらに，要素の名前である「ニューラルネットワーク」や「動的計画法」自体が，それぞれの方法をあまりよく表していないとも言えます．

source: http://nao.s164.xrea.com/RL-FAQ-j.html#Who%20invented%20RL
－－－－－－－－－－－－－

言わんとするところはよくわかるが

じゃあ，なんと呼べと・・・・