G検定

2021年第3回G検定 振り返り 第8問(強化学習)

2021年12月4日

シラバス分野:機械学習の具体的手法 強化学習からの出題です。

強化学習を簡単に説明

  • ある特定の状態の下で、最大限の報酬をもらうために、どのような行動をとるべきかを学習する機械学習の手法
  • 試行錯誤や探索を通じて、意思決定のルールを学習
  • 教師ラベルなしの状況で学習できるのが、「教師あり学習」「教師なし学習」と異なる利点
  • これまでは、囲碁などのゲームへの活用がほとんどであったが、近年では自動運転ロボティクスに活用範囲を広げている

強化学習の基本原理

(出典:強化学習のイメージ図

エージェント:ゲームのプレイヤーのような存在であり、強化学習の主体

環境が与える状態を認知し、行動の試行錯誤を繰り返す

行動がどの程度よかったかにより、報酬が与えられる

環境:エージェントの行動を受けて、定められた確率に基づき状態を変化させるとともに、報酬を発生させる

⇒エージェントの各行動に対して、定められた確率にもとづき、次の状態を発生させる

⇒エージェントに、行動の良さに応じた報酬を与える

最大の報酬をもらえるようにエージェントは行動を変化させ、それを受けて環境は状態・報酬を返します

これの繰り返しで意思決定ルールが作成され、強化されます。

バンディットアルゴリズム

累積報酬を最大化したい場合に、活用と探索のバランスをとる問題が出てきます。

これを説明しましょう。

まず、定義です。

  • 活用⇒一連の試行錯誤の後、報酬が高かった行動を積極的に選択しようとすること
  • 探索より高い報酬をもたらす別の行動がないか探すこと

活用と探索はトレードオフの関係にあります。

そこで両者のバランスをとるために考えられたのがバンディットアルゴリズムで、具体的手法はε-greedy法

  • 活用に重点:greedy法策⇒常に価値観数が最大になる行動をとらせる
  • 探索も考慮:ε-greedy法策⇒greedy法策ではさらに良い方策がないのか探索できないため、一定の確率εでランダムな行動をとらせる
  • この記事を書いた人

NISHIBIZ

・JDLA G検定 2021 #3 合格者
・令和3年度 中小企業診断修得者
記事は資格取得情報(ディープラーニング検定と中小企業診断士試験)他、
エンタメ(音楽・アニメ・テレビ)と時事/雑学。
Apple Musicを愛用。NISHIBIZでプレイリスト「私的ベスト」検索。
音楽の嗜好はエレクトロ/エモ

-G検定