G検定

2021年第3回G検定 振り返り 第11問(RAINBOW)

シラバス分野:ディープラーニングの手法 深層強化学習からの出題です。

Q値

2021#3 第8問 強化学習の続きになります。

強化学習は、累積報酬を最大化するような行動を学習していく、のを目的としていました。

そこで、最適な行動を求めるかわりに行動の「価値」を定義し、その価値を最大にするように学習するアプローチがとられました。

価値を評価するために行動価値関数が考えられ、これにより算出される行動価値をQ値といいます。

深層強化学習の登場

強化学習の難しい点として、次の二点があります。

  • 「状態」の表現がむずかしい。
  • 「状態」に対して、現実的な時間内で「行動」を学習することがむずかしい。

この問題を解決するために、ディープラーニングを活用することが考えられ、深層強化学習が登場しました。

DQN

深層強化学習の圧倒的にメジャーな手法は、DQN(Deep Q-Network)になります。

DQNは以下のように説明できます。

  • Q値を更新させ学習していく強化学習のQ学習に、CNNを取り入れた2021#3 第1問 CNN
  • 状態と行動と報酬をまとめたQテーブルを用意した。
  • Qテーブルに対しディープラーニングで回帰を実施
  • 状態数が膨大になっても、実用的な時間内で学習を終了できるようになった。

また、DQNには斬新な学習テクニックが導入されています。

  • 経験再生(Experience Replay)学習を安定させる効果がある。環境を探索する中で得られる経験データをリプレイバッファーに保存し、そこから適切なタイミングでランダムに抜き出し学習に利用
  • ターゲットネットワーク「現在学習中のネットワーク」と「過去にさかのぼったネットワーク」のTD誤差を教師データとして使うしくみ。価値の推定を安定化する効果がある。

RAINBOW

経験再生やネットワーク構造の工夫で、DQNを拡張させた深層強化学習の手法が多数開発されました。

  • ダブルDQN
  • デュエリングネットワーク
  • カテゴリカルDQN
  • ノイジーネットワーク

これらの手法を全部のせするという、ある意味すごい発想のモデルがRAINBOWです。

下図にあるように、Atariゲームを用いたテストにおいてRAINBOWは他のすべての手法にまさる圧倒的なパフォーマンスを出しました。

(出典:Rainbow:Combining Improvements in Deep Reinforcement Learning

  • この記事を書いた人

NISHIBIZ

・JDLA G検定 2021 #3 合格者
・令和3年度 中小企業診断修得者
記事は資格取得情報(ディープラーニング検定と中小企業診断士試験)他、
エンタメ(音楽・アニメ・テレビ)と時事/雑学。
Apple Musicを愛用。NISHIBIZでプレイリスト「私的ベスト」検索。
音楽の嗜好はエレクトロ/エモ

-G検定