【ラビットチャレンジレポート】深層学習day4 Section1:強化学習

E資格受験に必要なJDLA認定講座の一つであるラビット・チャレンジ(https://ai999.careers/rabbit/)のレポート用ページです。

100文字以上要点まとめ

【強化学習とは】

【強化学習とは】
長期的に報酬を最大化できるように環境のなかで行動を選択できるエージェントを作ることを目標とする機械学習の一分野
行動の結果として与えられる利益(報酬)をもとに、行動を決定する原理を改善していく仕組み

【強化学習と通常の教師あり、教師なし学習との違い】
結論:目標が違う
教師なし、あり学習では、データに含まれるパターンを見つけ出すおよびそのデータから予測することが目標・強化学習では、優れた方策を見つけることが目標

【強化学習の歴史】
冬の時代があったが、計算速度の進展により大規模な状態をもつ場合の、強化学習を可能としつつある。

【価値関数】
状態価値関数と行動価値関数の2種類がある
 ある状態の価値に注目する場合は、状態価値関数
 状態と価値を組み合わせた価値に注目する場合は、行動価値関数

【方策関数】
方策ベースの強化学習手法において、ある状態でどのような行動を採るのかの確率を与える関数

実装演習

エビデンス

関連記事レポート

強化学習の応用例

調べて見たところ下記のようなものがあった。

コンピューター・クラスターのリソース管理
交通信号機制御
車の制御
ロボット
推薦システム
広告関連(RTB)の最適化
囲碁などのゲーム
(https://www.tcom242242.net/entry/ai-2/%E5%BC%B7%E5%8C%96%E5%AD%A6%E7%BF%92/rl-application/)

コメント

タイトルとURLをコピーしました