FixNoiseで、StyleGANのドメイン変換の度合いを制御する

1.はじめに

 従来、StyleGANドメイン変換(例えば実写からアニメ)は、ソースモデルとターゲットモデルのレイヤースワップが一般的でしたが、その場合ドメイン変換の度合いを制御するにはかなり制約がありました。

 今回ご紹介するのは、ターゲットモデルの学習時に工夫を行うこでとで、ドメイン変換の度合いを制御できるFix Noiseという技術です。

*この論文は、2022.5に提出されました。

2.FixNoiseとは?

 下図のように、ソースの潜在空間をHs、ターゲットの潜在空間をHs→tとします。そして、ターゲットモデルを学習するときに、ランダムノイズをHsとHs→tが交わる潜在空間にマッピングするように、FixNoiseでランダムノイズの中心点(Panch)を補正します。

 学習後は、FixNoiseの補正係数を調整することによって、ターゲットモデルの出力画像へのソースの反映度を制御できます。

3.コード

 コードはGoogle Colabで動かす形にしてGithubに上げてありますので、それに沿って説明して行きます。自分で動かしてみたい方は、この「リンクをクリックし表示されたノートブックの先頭にある「Colab on Web」ボタンをクリックすると動かせます。

 まず、セットアップを行います。

 

 学習済みモデルは、Metafaces(FFHQ → MetFaces)、aahq(FFHQ → AAHQ)、wikiart(Church → Cityscape) の3つが用意されていますので、target_datasetでモデルを選択し実行すると、モデルがロードされます。ここでは、aahqを選択して実行します。

 

 まず、FixNoiseによる補正係数を100%、75%、50%、25%、0%に変化させた時の画像を生成してみましょう。

 

 それでは、FixNoiseによる補正係数を変化させたときの画像から動画を作ってみましょう。

 ドメイン変換の度合いをきめ細かく調整できるのは、便利そうですね。

 では、また。

(オリジナルgithub)https://github.com/LeeDongYeun/FixNoise

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

日本語が含まれない投稿は無視されますのでご注意ください。(スパム対策)

ABOUTこの記事をかいた人

アバター

ディープラーニング・エンジニアを趣味でやってます。E資格ホルダー。 好きなものは、膨大な凡ショットから生まれる奇跡の1枚、右肩上がりのワクワク感、暑い国の新たな価値観、何もしない南の島、コード通りに動くチップ、完璧なハーモニー、仲間とのバンド演奏、数えきれない流れ星。