E資格受験に必要なJDLA認定講座の一つであるラビット・チャレンジ(https://ai999.careers/rabbit/)のレポート用ページです。
100文字以上要点まとめ
学習率について
【学習率の値】
大きい場合
最適値にいつまでもたどり着かずに発散
小さい場合
発散しないが収束までに時間がかかってしまう
大域局所最適地に収束しづらくなる
【学習率の決め方】
初期の学習率を大きく設定し徐々に小さくしていく
パラメータ毎に学習率を可変させる
⇒学習率最適化手法を利用して学習率を最適化
モメンタム
\( w^{(t+1)} = w^{(t)} + V_{t} \)
\( V_t = -\epsilon \nabla E + \mu V_{t-1} \)
移動平均のような動きのイメージ
【メリット】
局所最適解にはならず大域的最適解となる
谷間についてから最も低い位置(最適値)に行くまでの時間が早い
AdaGrad
\( w^{(t+1)} = w^{(t)} – \epsilon \frac{1}{\sqrt{h_t}+\theta}\nabla E \)
\( h_t = h_{t-1} +{(\nabla E)}^2 \)
\( h_0 = \theta \)
勾配の2乗を積算していく(昔の勾配情報を経験として蓄える)
【メリット】
勾配の緩やかな斜面に対して最適値に近づける
【課題】
学習率が徐々に小さくなるので鞍点問題を引き起こすことがあった
RMSProp
\( w^{(t+1)} = w^{(t)} – \epsilon \frac{1}{\sqrt{h_t}+\theta}\nabla E \)
\( h_t = \alpha h_{t-1} +(1-\alpha){(\nabla E)}^2 \)
\( h_0 = \theta \)
αで昔の勾配情報をどの程度活かすか調整
【メリット】
局所最適解にはならず、大域的最適解となる
ハイパーパラメータε,θの調整が必要な場合が少ない
Adam
下記2つを孕んだ最適化アルゴリズム
・モメンタムの過去の勾配の指数関数的減衰平均
・RMSPropの過去の勾配の2乗の指数関数的減衰平均
【メリット】
モメンタムおよびRMSProp両方の長所を活かせる←最強!
実装演習
確認テスト
①モメンタム・AdaGrad・RMSPropの特徴をそれぞれ簡潔に説明せよ。
上記 100文字以上要点まとめ を参照
時間
12/14 1:00
コメント