« はてなへの住所登録の義務化撤回 | 最新のページに戻る | Vision Research »

■ 川人先生

のトークがあったので行ってきました。前半は小脳の話と基底核の話ですでに論文になっているものです。何回か聞いた話ではありますが、いろいろと発見がありました。後半は今やってること、これからやっていることで非常にエキサイティングです。こちらに関しては書けませんが。
ATRのホームページhttp://www.cns.atr.jp/~kawato/にパワーポイントのファイルがいくつかあります。前半に関してはhttp://www.cns.atr.jp/~kawato/Ppdf/JCERE.pptが近い感じです。
それで前半に関して聞いてて考えたのは、どのくらいあらかじめ既知の条件を取り込んでモデル化してよいものなのだろうか、ということです。たとえば、階層型強化学習を使ってロボットが起き上がることが出来るようになるhttp://www.kawato.jst.go.jp/xmorimo/robo_sym2000.pdfという話の場合、それぞれの関節で行われる運動自体を強化するのではなくて、もっと上位のサブゴール(姿勢の高さ)が強化され、それによってこんどは下位の関節角などが強化される、という話なわけですが、たしかにそれは理にかなっているし、生物っぽい感じはするけれども、なんかそういう行動の全体を把握したホムンクルスのようなものが入り込んでいるように思えるのです。起き上がるという問題を達成するためにいくつかの問題に分割しなければならないのに、それをあらかじめモデルの中に取り込んでしまってよいのでしょうか。そうやって問題を分割する部分は未知のものとして、学習の過程で創発的に出てこないと意味がないようにも思えるし。しかしそのような上位の強化システムはいろんな行動で共通して使われているのだからよいのかもしれないし。考えれば考えるほどにわからなくなってくるのです。同じような感じで学習で獲得したいものがはじめからモデルの中に入っているというパターンをいくつかの点で見たように思うのです。
たぶんいま書いていることが飲み込めないと、複数のモジュールがあってそれぞれが内部モデルを持っていたり(Haruno M, Wolpert DM, Kawato M: MOSAIC model for sensorimotor learning and control. Neural Computation, 13 2201-2220 (2001))、それぞれが強化学習される(Doya K, Samejima K, Katagiri K, Kawato M: Multiple model-based reinforcement learning. Neural Computation, 14, 1347-1369 (2002))といったスキームの意義がわかってないことになるのだろうと思うのですが、まだ飲み込めていないのです。
というわけで少しNeural Computation '02のイントロを読んでみると、


"The basic problem in modular or hierarchical RL (引用者注:reinforcement learning) is how to decompose a complex task into simpler subtasks.
...
However, when the prediction models are to be trained with little prior knowledge, task decomposition is initially far from optimal. Thus, the use of "hard" competition can lead to suboptimal task decomposition."

と書かれているので、やっぱりどのくらいprior knowledgeを使うのはというのはnon-trivialな問題のようにも思えるし。どう分割するかの問題なのではなくて、すでに分かれているモジュールのどれが選択されるか、という問題を解けばいいだけなのかもしれないし(それがまさにこの論文で行われていることのようだし)。ああわからない。

コメントする (2)
# mmrl

なんかまた呼ばれた気がする....。疑問を解消できるとよいのですが。もちろん、問題の分割が学習で創発的にでてこないとダメだというのは尤もなことです。MOSAICの肝は予測誤差を使っていくつかの部分問題に分割するという点ですが、それだけでなく、学習についても言及していて、予測誤差がより小さいモジュールを強化する(学習する)ことによって、はじめは似通ったモジュールが分化されることもありうるわけです。 特に、Doya et al 2002はイントロの一部だけでなく、中身も見てほしいわけですが、Figure 8(a)に書いてあるのは最初の50試行は1つの状況(振り子の長さが一定)であるのに後半は2つの状況が交互に出現する(振り子の長さが可変)のような場合、1つの状況を担当していたモジュールが2つの状況を分割できるように分化しているわけです。 こういうことができるモデルだからこそイントロでprior knowledgeが少ないような場合、それだけでばっさり切る``hard’’ competitionは危ないといっているのです。だからって、使えるpriorを捨てるのは得策ではないし、prior knowleadgeと学習によってposteriorに与えられる情報とをうまく統合して状況分割する良い方法は、というと``soft’’ competition であり、baysianであり、MOSAICではないかというのがこの論文の主張で、その次の節にそのことが書いてあるわけです。

# pooneil

すばやい反応感謝します。最初はそのつもりではなかったのですが、エントリ書き上げてみるとこれはどうにも呼びつけてしまったとしか思えないですよね。どうもお手数かけてすみません。んでもって、なるほど、このfig.8でのモジュールの分化、というのは面白い話ですね。これが「創発的な問題の分割なのか」というのに対する答えだということですね。よくよく読んでみます。いちばん近い道筋を教えてくださったことに感謝します。あと後半のコメントに関して私が今のところわかったのはsoftmax functionを使うということがprior knowledgeがないときのベイジアン的にやることであって、これを使ってモジュールの選択をするのがMOSAICやmultiple model-based reinforcement learningである、とそういうことであって、この段階ではまだpriorは使わずにボトムアップ的にやっている(ディスカッションの最後の”Combination of this bottom-up mechanism with a top-down mechanism is the subject of our ongoing study.”)、ということですね?とんちんかんなことを言ってるのかもしれませんが、ま、答え合わせみたいなもんということでご勘弁を。


お勧めエントリ


月別過去ログ