【ラビットチャレンジレポート】深層学習day4 Section2:AlphaGo

E資格受験に必要なJDLA認定講座の一つであるラビット・チャレンジ(https://ai999.careers/rabbit/)のレポート用ページです。

100文字以上要点まとめ

【AlphaGoの学習】
Step1:教師あり学習によるRollOutPolicyとPolicyNetの学習(いきなり強化学習はうまくかない)
Step2:強化学習によるPolicyNetの学習(方策関数)
Step3:強化学習によるValueNetの学習(価値関数)

【AlphaGo(Lee) とAlphaGoZeroの違い】
1、教師あり学習を一切行わず、強化学習のみで作成
2、特徴入力からヒューリスティックな要素を排除し、石の配置のみにした
3、PolicyNetとValueNetを1つのネットワークに統合した
4、Residual Net(後述)を導入した
5、モンテカルロ木探索からRollOutシミュレーションをなくした

【ResidualNetwork】
ネットワークにショートカット構造を追加して、勾配の爆発、消失を抑える効果を狙ったもの
副産物としてアンサンブル効果が得られている

実装演習

エビデンス

関連記事レポート

モンテカルロ木探索は完全情報ゼロサムゲームで使用されることが多い(https://udnp.hatenablog.com/entry/2020/12/20/103516)

全情報ゼロサムゲームとは?
下記特徴を満たすゲーム
・ 二人:プレイヤーの数が二人
・零和(「ゼロ和」と読むのが一般的だが「レイワ」とも読む):プレイヤー間の利害が完全に対立し、一方のプレイヤーが利得を得ると、それと同量の損害が他方のプレイヤーに降りかか
・有限:ゲームが必ず有限の手番で終了する
・確定:サイコロのようなランダムな要素が存在しない
・完全情報:全ての情報が両方のプレイヤーに公開されている
(https://ja.wikipedia.org/wiki/%E4%BA%8C%E4%BA%BA%E9%9B%B6%E5%92%8C%E6%9C%89%E9%99%90%E7%A2%BA%E5%AE%9A%E5%AE%8C%E5%85%A8%E6%83%85%E5%A0%B1%E3%82%B2%E3%83%BC%E3%83%A0)

コメント

タイトルとURLをコピーしました