SONY Neural Network Console で転移学習をやってみる

今回は、転移学習の実験をやってみて、その効果を確認してみます

こんにちは cedro です。

先回、学習データが少ない時に、認識精度を上げる手法として画像データの水増しを取り上げ、ImageAugmentation レイヤーを使った効果を確認しました。。

ところで、学習データが少ない時に、認識精度を上げる手法はもう１つあります。

ある領域で大量のデータを使って学習したモデルを利用して、別の領域で学習をさせることを考えます。

その際、低次のレイヤー（エッジや基本形状などを検出）は以前学習した内容を保持し、高次のレイヤー（物体全体の特徴量を検出）のみ学習させることで、少ないデータでも効率的な学習が可能になります。

これが転移学習（Transfer Learning）です。

今回は、Neural Network Console で転移学習の実験をやってみて、その効果を確認してみます。

実験の考え方

通常、ディープラーニングのフレームワークには、Alexnet 、VGGnet 、LesNet、GoogleNet 等の有名なネットワークに Image Net 等の大量のデータを使って学習させた 学習済みモデルが用意されていて、それを利用して転移学習するのが一般的です。
＊Keras、Chiner、Tensoleflow、Caffe等には当然有ります。

しかし、Neural Network Console には、まだ学習済みモデルがありませんので、今回は実験というスタイルになります。
＊SONYさんの今後の対応に期待です。

さて、今回の実験をどうするかですが、

一般物体認識のベンチマークとして有名な CIFAR10 というデータセットがあります。このブログで何度も登場しているので、おなじみですよね。

CIFAR10は、飛行機～トラックの10クラスの画像で、学習データが各クラス5,000枚づつありますが、結構識別は難しいです。

そして、さらにもう一段識別を難しくしたのが CIFAR100というデータセットです。

CIFAR100 は、海洋哺乳類～乗り物の100クラスの画像で、学習データが各クラス500枚づつしかなく、さらに識別が難しいです。

今回は、CIFAR100をゼロから学習する場合と CIFAR10の学習済みモデルで CIFAR100を学習する場合とを比較してみたいと思います。

一度、飛行機～トラックの画像を学習した経験があれば、未経験の場合よりも、新たな画像を効率的に学習できるという考え方です。

実験の設定

ネットワークは、以前 VGGnet を参考に設計した mini_VGGnet_mark2 を使います。

このネットワークは、VGGnet をスケールダウンしたモデルですが、時代考証は無視して、当時はまだ発表されていなかった Batch Normalization を全てのConvolution の後に配備して、それなりに認識精度を強化したものです（笑）。

学習済みモデルは、その時にCIFAR10を17時間16分掛けて10エポック学習したものを使います。

たった10エポックの学習結果が学習済みモデルというのは誠に寂しい限りですが、私のGPU無しの環境ではこんなところです。まあ実験ということでご容赦下さい。

実験データセットは、学習済みモデルが10分類なので、CIFAR100の100クラスの学習データから10クラスを選んで作成しました。

CIFAR10が、乗り物（４種類）や陸の動物（６種類）の画像ですので、新しいものということで海や水辺の動物の画像を選んでみました。

各クラス500個の学習データを元に、学習：評価＝８：２で振り分けたので、最終的に学習データは、各クラス400個になりました。

これで、学習用データ4,000個、評価用データ1,000個の実験データセットが出来ました。

実験をしてみます

まず、学習無しモデルで、実験データセットを学習してみます。

バッチ64、エポック50で学習を開始します。7時間16分で学習完了です。

中々 cost 曲線や Training error 曲線が下がらない一方で、Validation error は上昇の一途です。

Confusion Matrix です。さすが CIFAR100 、手強いです。認識精度は57.4％です。

さあ、今度は学習済みモデルを使った学習です。

TRAINING 画面にして、Result History の中から目的のものを選択し、右上の Overview の部分で右クリックをし、「Open in EDIT Tab with Weight 」を選択します。そうすると、ネットワークが学習した重み付きで読み込まれます。