最適化メソッドの比較

前回SGDとバッチサイズの関係を調べて、大きな収穫がありました。
そこで今度は最適化メソッドを入れ替えた場合の傾向について調査してみます。

比較用に採用したメソッドは以下の通り

下にいくほど、世代が新しくなると思ってよいです。（ザックリですが）
各メソッドを紹介するのが目的ではないので、詳細には触れないことにします。
※mxnetには、他にも最適化メソッドが存在します。

条件はすべて同じにして、最適化関数だけを入れ替えます。
使用したネットワークはLSTM1層です。
収束まで時間がかかるケースを想定して、今回は10,000エポック回してみました。

結果はこのようになりました。

この14caseを実行するのに、41時間以上かかってしまいましたｗ
こういう時にはやはりハイスペックな実行環境が欲しくなりますね。

※良い感じに収束とは、損失関数の結果が 1e-2 近辺に落ち着くことを指しています。
使用データがUSD/JPYなので、結果が1e-2→0.01円→1pipとなり、予想誤差が1pipだと十分ではないか！が根拠です。

学習を進める上で、毎回複数最適化メソッドを採用する意味はほとんどありません。
従って、今後の学習で採用する最適化関数は

以上のことから、adadeltaを採用こととする！

と考えていたら、小さな落とし穴がありました・・・

41時間は長かったので、どこに時間がかかっているのか出力情報を増やして調べてみました。

今回は2000エポックですが、傾向は同じだと思います。

判明した問題点

なんとadamの2.5倍の時間がかかっています。
adadeltaで1回学習するよりも、学習率x2パターンのadamの方が早く終わるのです！！

ということで結論としては

ことにしました。

さて、図をよく見るとわかるのですが、損失関数が時々1e-2を下回っています。
上でも述べましたが

平均誤差が1pip以下って結構いい感じなんじゃない？

と思ってしまいます。
前回ディープラーニングに取り組んだ際には、収束すら困難でした　( ﾉД`)ｼｸｼｸ…

今回は色々と本気で取り組んで、進捗が出たことは非常に嬉しい限りです。
Symbolicによる高速化等まだまだ試してみたいこともありますが、そろそろ次ステップに進む頃合いでしょうか。