cedro-blog

GANの潜在空間に新垣結衣は住んでいるのか?

1.はじめに

 ご無沙汰しております、cedroです。ずいぶんと長い間、ブログの更新をお休みしていましたが、再開します。

 顔画像を学習したGANモデルは、潜在変数を変化させることによって、様々な顔画像を生成出来るようになります。学習に使った顔画像の要素を色々組み合わせることによって、学習に使わなかった画像も生成することが出来るわけです。言い換えれば、顔画像を学習したGANの潜在空間には無数の顔が分布してると言うことが出来ます。

 ということは、そのGANの潜在空間には、新垣結衣さんに似た顔もあるかもしれないと思ったのが、今回のテーマを考えたきっかけです。

 今回は、顔画像生成の最新モデルであるStyleGAN2を使って、「GANの潜在空間に新垣結衣は住んでいるのか?」というテーマを検証してみたいと思います。

2.StyleGAN2とは?

 まず、StyleGANについて簡単におさらいします。

 左側のMapping network は8層の全結合層で、入力の潜在変数z(1, 512)を中間出力の潜在変数w(18, 512)にマッピングします。

 右側のSynthesis network は9層で、入力は定数(4×4×512)、そこへ先程の潜在変数w(18, 512)とノイズが各層に入ります。潜在変数wは、各層に2本づつ入っているので、合計9×2=18となるわけです。そして、生成する画像の解像度を、4×4, 8×8, 16×16と順次上げて行き、最終的に1024×1024にします。

 潜在変数wは主な画像生成をコントロールし、ノイズは細部の特徴(髪の流れ, 肌質など)をコントロールします。

StyleGAN2は、このStyleGANの改良版なので、改良点を簡単に説明すると、

  1. データ正規化の手法を見直し、特徴的な水滴状パターンの発生を防止
  2. Progressive growingをやめ、頻出特徴を生成してしまう不具合を防止
  3. 潜在空間の知覚的な滑らかさを示す指標をモデルに組み込み画像品質を向上

3.新垣結衣の顔をどうみつけるか?

 主な画像生成をコントロールするのは、潜在変数z(1, 512)あるいは潜在変数w(18, 512)です。潜在変数wの方が明らかに表現力が豊なので、潜在変数wの探索を行うことにします。

 アルゴリズムは、Synthesis networkの9個ある各層において、潜在変数wを適当に初期化して inital image を出力し、target image (新垣結衣の画像)との差をロスとします。そして、ロスが出来るだけ小さくなるような潜在変数wを見つけるものです。

 そのために、target image は9種類の解像度の画像(4×4〜1024×1024)を用意します。

 今回使用するコードは、NVIDIAが公開しているStyleGAN2の公式コードを元に、Google Colabで動かすような形にしてGithubに上げてありますので、それに沿って説明して行きます。自分で動かしてみたい方は、この「リンク」をクリックし表示されたノートブックの先頭にある「Colab on Web」ボタンをクリックすると動かせます。

4.セットアップ

 最初に、tensorflow1.15.0 を動かすために必要な cuda10.0 をインストールします(2022.10よりgoogle colab からcuda10.0が削除されたため)。

 まず、githubよりコードを取得します。

 次に、使用するクラスと関数を定義します。コードの記載は省略しますが、定義する内容だけをメモしておきます。

 そして、最後に顔画像を切り出すモデルの読み込みを行います。

5.顔画像の切り出し

 sample/picに用意した下記5つの画像から、顔画像を切り出します。

 普通はOpenCVでやるわけですが、StyleGAN2が学習に使ったFFHQデータセットは、dlibを使いalign(顔が直立するように回転させる)して独自の設定の範囲を切り取って作成されています。なので、用意した画像から顔画像を切り出す場合も同様な処理を行います。では、下記のコードを実行します。

 sample/pic にある各画像について、顔のランドマーク(目、鼻、口、顎など)を検出し、その位置を合わせて顔画像を切り出し、1024×1024にリサイズしてmy/picに保存しています。

 目、鼻、口、顎の位置が大体合っていることが分かると思います。これが大体合っていないと上手く潜在変数の探索が出来ないのでご注意下さい。

6.マルチ解像度データセットの作成

 切り取った顔画像を9種類の解像度(4×4, 8×8, 16×16,…., 1024×1024)の画像に変換し、Tensorflowの仕様であるマルチ解像度の画像TFRecordで保存するコードです。

 dataset_tool.pyを使って、my/picにある顔画像からマルチ解像度の画像TFRecordを作成し、my/datasetへ保存します。

 ちなみに、マルチ解像度の画像TFRecordはこんな形をしています。

7.新垣結衣を生成する潜在変数を探索する

 それでは、マルチ解像度のデータセットに登録された新垣結衣さんの顔を生成する潜在変数を探索します。

 探索途中の生成画像は my/real_imagesフォルダーに順次保存されます。探索した潜在変数はvec_synで返って来ます探索試行回数の設定値は300です。変更したい場合はprojector.py の self.num_stepsの値をエディター等で変更して下さい。では、コードを実行します。

 上段がターゲット画像、下段が探索した潜在変数が生成した画像です。なぜか順番が変わってしまいました。ターゲットに対する再現性は、まずまずですが、もう一味足らないということで70点くらいの出来でしょうか。

 検証結果は、「GANの潜在空間には、新垣結衣に良く似た人が住んでいた」です。

 探索した潜在変数vec_synをNumpyのバイナリファイルで保存する場合は、下記のコードを実行します。

 ちなみに、このファイルの容量は18×512の行列が5つだけなので、たった188KBです。ふと考えてみると、この情報だけから1024×1024ピクセルのカラー画像を5枚生成出来るのは凄いことですね。

 保存したNumpyのバイナリファイルを読み込みには、下記のコードを実行します。

8.顔画像のトランジション

 上手く顔画像を生成できる潜在変数を見つけることが出来ると、興味深いことが出来ます。例えば、顔画像Aを生成する潜在変数Aと顔画像Bを生成する潜在変数Bを見つけたとします。

 潜在変数Aと潜在変数Bの各要素の差をn等分したものをCとし、潜在変数を A+C*1, A+C*2, …., A+C*nと変化させながら顔画像を生成すると、顔画像Aから顔画像Bへスムーズへ画像を変化させることが出来ます。

それでは、8.で見つけた潜在変数を使って、やってみましょう。generate_gif ( 潜在変数名, リスト形式で順番指定 )で実行します。

 潜在変数の1番目→0番目→3番目と少しづつ変化させた結果です。見つけた潜在変数の間にも顔画像がきれいに分布していることが分かります。

 作成したGIF動画は、my/gif/ に保存されます。anime.gif は 1024×1024 のサイズ、anime_256.gif は 256×256 のサイズです。

 このブログでは、新垣結衣さんを題材にしていますが、例えば自分の写っている写真を使えば自分の顔画像の潜在変数も簡単に取得することが出来ます。ぜひ、色々トライしてみて下さい。

 では、また。

(Twitterへの投稿)