StyleGAN_NADAで、画像生成モデルのドメイン変換を変換先ドメインの学習無しで実現する

1.はじめに

　今まで、画像生成モデルのドメイン変換をする場合、画像生成モデルに変換先ドメインのデータを少量学習（ファインチューニング）させるのが一般的でした。今回ご紹介するのは、画像生成モデルのドメイン変換を変換先ドメインの学習無しで実現する StyleGAN_NADAです。

＊この論文は、2021.8に提出されました。

2.StyleGAN_NADAとは？

　StyleGAN_NADAは、画像とテキストの特徴ベクトルをそれぞれ抽出できるCLIPを用いることで、変換先ドメインの学習無しで、ドメイン変換することが出来ます。下記は、StyleGAN_NADAの概要図です。

　変換する画像の潜在変数Wを、パラメータを固定したジェネレーターG_frozenとパラメータを学習するジェネレーターG_trainに入力します。この２つのジェネレーターの生成画像と変換テキスト（「photo」を「Anime Painting」へ変換）をDirectional CLIP Lossに入力します。

　Directional CLIP Lossでは、入力された画像とテキストの特徴ベクトルを抽出し３つのロスを計算します。１つ目はG_trainの生成画像の特徴ベクトルと「Anime Painting」の特徴ベクトルの類似度を最大化するためのロスで、これは当然です。

　２つ目はG_frozenの生成画像からG_trainの生成画像への特徴ベクトルの差分と「photo」から「Anime Painting」への特徴ベクトルの差分の類似度を最大化するためのロスで、これによって変換の方向が明確になります。

　３つ目はG_frozenの生成画像の特徴ベクトルとG_trainの生成画像の特徴ベクトルの距離を最小化するためのロスで、これはG_trainに余計な演出をさせないために加える制約項です。この３つのロスの合計を最小化するG_trainのパラメータを求めます。

　それでは、早速動かしてみましょう。

3.Google Colab

　コードはGoogle Colabで動かす形にしてGithubに上げてありますので、それに沿って説明して行きます。自分で動かしてみたい方は、この「リンク」をクリックし表示されたノートブックの先頭にある「Colab on Web」ボタンをクリックすると動かせます。今回コードは非表示にしてあり、コードを確認したい場合は「コードの表示」をクリックすると見ることが出来ます。

　まず、セットアップを行います。色々な種類の画像生成モデルをダウンロードし試してみたい場合は、download_with_pydrive にチェックを入れておくとgoogle colab のダウンロード制限を回避できます（但し、このブロックの処理の時間は少し余分にかかります）。

　画像生成モデルは、顔画像「ffhq」選択します。これ以外にも、「cat」、「dog」、「church」、「horse」、「car」があります。

　下記の設定を行い、学習を実行します。

source_class : 元画像のクラス名
target_class : 変換後のクラス名
style_image_dir : 変換イメージ画像の保管フォルダー（〜３枚）
improve_shape : 変換で形が大きく変わる場合に使用（時間がかかるので通常不使用）
training_iteration : 学習回数
output_interval : 画像表示・保存間隔。保存先は output/sample
save_interval : 学習パラメータの保存間隔。保存先は output/checkpoint 。0で保存しません。
seed : ランダムシードの指定（数字を変更すると画像が変わります）

　学習回数を 50, 100, 150 と増やすと徐々に target_class = Sketch に最適化されて行くのが分かります。但し、学習回数は多ければ多いほど良いわけではなく最適値があります。それでは、source_class, target_class, training_iteration を変えて、いくつか試してみましょう。画像は最後のみ表示します。

source_class = face, target_class = illustration, training_iteration = 550

source_class = face, target_class = disney, training_iteration = 150

source_class = face, target_class = zombie, training_iteration = 550

　それでは、直前で学習したモデルが保持されていますので、これを使ってランダムな潜在変数で画像生成してみましょう。ここでは、直前で source_class = Photo, target_class = Sketch で学習を行った場合を想定しています。trancation（多様性）は0.7で行います。ランダムな潜在変数を使っているので、実行する度に画像は変わります。