【ラビットチャレンジレポート】深層学習day4　Section1：強化学習

E資格受験に必要なJDLA認定講座の一つであるラビット・チャレンジ(https://ai999.careers/rabbit/)のレポート用ページです。

100文字以上要点まとめ

【強化学習とは】

【強化学習とは】
長期的に報酬を最大化できるように環境のなかで行動を選択できるエージェントを作ることを目標とする機械学習の一分野
行動の結果として与えられる利益(報酬)をもとに、行動を決定する原理を改善していく仕組み

【強化学習と通常の教師あり、教師なし学習との違い】
結論:目標が違う
教師なし、あり学習では、データに含まれるパターンを見つけ出すおよびそのデータから予測することが目標・強化学習では、優れた方策を見つけることが目標

【強化学習の歴史】
冬の時代があったが、計算速度の進展により大規模な状態をもつ場合の、強化学習を可能としつつある。

【価値関数】
状態価値関数と行動価値関数の2種類がある
　ある状態の価値に注目する場合は、状態価値関数
　状態と価値を組み合わせた価値に注目する場合は、行動価値関数

【方策関数】
方策ベースの強化学習手法において、ある状態でどのような行動を採るのかの確率を与える関数