« 「オブリガード、蝉の声、アースジェッター」(さうして、このごろ2020年7月版) | 最新のページに戻る | 「ちのいろ、わが放浪、針尾送信所」(さうして、このごろ2020年8月版) »
■ R演習補講 (2腕バンディット問題を題材に)
北大CHAINのウィンタースクール2020では、集団的意思決定のモデリングについての講義と演習があります。そちらの準備用資料として「RとRStudioの基本について、強化学習の初歩的な例である2腕バンディット問題を題材に説明する」というものを学生向けに吉田が作成しました。
この資料はそちらを公開用に編集したものです。じつのところ私はRやRStudioを使うのも久しぶりで、強化学習についても素人ですが、この機会にこういう資料を自力で作って公開すれば、間違いも指摘してもらえるかもと期待して公開する次第です。
Sutton and Barto (2020) "Reinforcement Learning: An Introduction (2nd ed)"の2章が一応の元ネタですが、それをなるたけ単純化したところが特徴です。(apply関数使う前のところで時間切れになったので、一人分のデータを作るところまでしかたどり着けなかった。)
なお、コードについてですが、今回の講師のひとりである、独コンスタンツ大学の豊川航さんによるR markdownのコードと変数に使う文字は揃えていますが、コード自体は全部自分で書きました。
間違いなど発見しましたらぜひご指摘ください。よろしくお願いします。