強化学習迷路問題

迷路問題シミュレータ使い方

[0] シミュレータ表示部

白丸がエージェント、黒線が壁です。[start]から[goal]に行くと100の報酬が得られ、また[start]に戻される事を繰返します。

[1]動作ボタン

[Start]でシミュレート開始、[Stop]で一時停止、[Learning Reset]で学習データ等を初期状態に戻してからシミュレートをやり直します。
[Learning Reset]では[Count][Total Reward]の値は初期化されませんので、必要に応じて別途[Count Reset][Reward Reset]ボタンで初期化して下さい。

[2]ログ出力部

[Count]は現時点までの行動ステップ数を表わします。右にある[Count Reset]ボタンで行動ステップ数をリセットする事ができます。
[State]は白丸の現在位置、[Action]は白丸が取った行動(UP, RIGHT, DOWN, LEFT)を表わします。
[Reward]は現時点の行動により得られた報酬を表わします。これは[goal]に辿り付いた時のみ得られます。
[Total Reward]は現時点まで得られた報酬の合計を表わします。右にある[Reward Reset]ボタンで合計報酬をリセットする事ができます。

[3]表示速度切替

表示間隔の秒数を[1ms](0.001秒)～[1s](1秒)の間で切り替えられます。学習が完了するまで素早く行動させたい場合などに[1ms]等指定すると良いです。しかし、描画速度が追い付けないため少々画面がちらつく事があります。また、行動をじっくり観察したい場合は[500ms]等に指定すると良いです。

[4]迷路切替

[Maze type]は迷路の種類を変更出来ます。Appletの性質上、迷路は固定で定義してあるため5つ程度の選択が可能です。時間が余った際に切り替えて実験してみて下さい。なお、迷路問題を切り替える前には必ず[Stop]を押してシミュレーションを一時停止して下さい。
[Emergency]は迷路に環境変化として壁を設けます。今回用意した迷路問題はいずれも二通りのゴール到達方法が用意してあるので、そのどちらかを塞ぐ事が出来ます。なお、これはシミュレーションを動かしたままでも指定可能です。

[5]学習パラメータ制御スライダ

[α]は学習率パラメータを変更します。このパラメータは記憶蓄積/更新のバランス調整に関係する神経修飾物質アセチルコリンに見立てられていますが、さて？
[β]は逆温度パラメータを変更します。このパラメータは焦りとくつろぎのバランス調整に関係する神経修飾物質ノルアドレナリンに見立てられていますが、さて？
[γ]は割引率パラメータを変更します。このパラメータは行動の衝動性や躁鬱のバランス調整に関係する神経修飾物質セロトニンに見立てられていますが、さて？