Projected GANで、画像生成の学習効率を高める

1.はじめに

　最近、GANは高品質な画像生成が可能になっていますが、その学習については慎重な正規化、大量の計算、ハイパーパラメータ調整などの課題がまだ残されています。今回ご紹介するのは、これらの課題を軽減するProjected GANという技術です。

＊この論文は、NeurIPS 2021で採択されたものです。

2.Projected GANとは？

　ポイントは、学習する画像（Real）と生成器の出力画像（Generated Image）を固定の特徴空間に投影し、チャネルと解像度の両面から特徴を抽出して識別器へ送ることです。

　CCMは、チャネルからの特徴抽出を担当し、４つの畳み込み層の重みをランダムに初期化した構造をしています。CSMは、解像度からの特徴抽出を担当し、CCMを拡張させたU-Netの構造をしています。

　これらのアーキテクチャの採用によって、Projected GANは、StyleGAN 2-ADAと比較して収束が速くFIDが低くなることが、多くのデータセットで検証されているようです。

　さて、実際に学習をさせてみたいところですが、今回は時間の関係で学習済みパラメータを使って画像の生成のみ行ってみたいと思います。学習をしてみたい方は、下記に学習用のcolabがありますので、トライしてみて下さい。

　Projected GAN google colab リンク

3.コード

　コードはGoogle Colabで動かす形にしてGithubに上げてありますので、それに沿って説明して行きます。自分で動かしてみたい方は、この「リンク」をクリックし表示されたノートブックの先頭にある「Colab on Web」ボタンをクリックすると動かせます。

　まず、セットアップを行います。学習済みパラメータは８種類提供されていますが、ここではその内３種類（art_painting.pkl, church.pkl, pokemon.pkl）のみをダウンロードしています。３種類以外のパラメータをダウンロードしたい場合は、該当するコメントアウト（#）を外して下さい。

# --- セットアップ ---

# Pytorch バージョン変更
! pip install torch==1.10.1+cu111 torchvision==0.11.2+cu111 torchaudio==0.10.1 -f https://download.pytorch.org/whl/torch_stable.html

# githubからコードを取得
! git clone https://github.com/autonomousvision/projected_gan
! pip install timm dill
%cd projected_gan

# 学習済みパラメータのダウンロード
! wget https://s3.eu-central-1.amazonaws.com/avg-projects/projected_gan/models/art_painting.pkl
! wget https://s3.eu-central-1.amazonaws.com/avg-projects/projected_gan/models/church.pkl
#! wget https://s3.eu-central-1.amazonaws.com/avg-projects/projected_gan/models/cityscapes.pkl
#! wget https://s3.eu-central-1.amazonaws.com/avg-projects/projected_gan/models/clevr.pkl
#! wget https://s3.eu-central-1.amazonaws.com/avg-projects/projected_gan/models/ffhq.pkl
#! wget https://s3.eu-central-1.amazonaws.com/avg-projects/projected_gan/models/flowers.pkl
#! wget https://s3.eu-central-1.amazonaws.com/avg-projects/projected_gan/models/landscape.pkl
! wget https://s3.eu-central-1.amazonaws.com/avg-projects/projected_gan/models/pokemon.pkl


# 画像表示
import matplotlib.pyplot as plt
from PIL import Image
import os
import numpy as np

def display_pic(folder):
    fig = plt.figure(figsize=(30, 60))
    files = os.listdir(folder)
    files.sort()
    for i, file in enumerate(files):
        img = Image.open(folder+'/'+file)    
        images = np.asarray(img)
        ax = fig.add_subplot(10, 5, i+1, xticks=[], yticks=[])
        image_plt = np.array(images)
        ax.imshow(image_plt)
        ax.set_xlabel(file, fontsize=25)               
    plt.show()
    plt.close()

# リセットフォルダ
import shutil

def reset_folder(path):
    if os.path.isdir(path):
      shutil.rmtree(path)
    os.makedirs(path,exist_ok=True)

# 動画再生
from IPython.display import display, HTML
from IPython.display import HTML

def display_mp4(path):
    print('prepere to play movie...')
    from base64 import b64encode
    mp4 = open(path,'rb').read()
    data_url = "data:video/mp4;base64," + b64encode(mp4).decode()
    display(HTML("""
    <video controls loop autoplay>
        <source src="%s" type="video/mp4">
    </video>
    """ % data_url))

# --- セットアップ ---

# Pytorch バージョン変更

! pip install torch==1.10.1+cu111 torchvision==0.11.2+cu111 torchaudio==0.10.1 -f https://download.pytorch.org/whl/torch_stable.html

# githubからコードを取得

! git clone https://github.com/autonomousvision/projected_gan

! pip install timm dill

%cd projected_gan

# 学習済みパラメータのダウンロード

! wget https://s3.eu-central-1.amazonaws.com/avg-projects/projected_gan/models/art_painting.pkl

! wget https://s3.eu-central-1.amazonaws.com/avg-projects/projected_gan/models/church.pkl

#! wget https://s3.eu-central-1.amazonaws.com/avg-projects/projected_gan/models/cityscapes.pkl

#! wget https://s3.eu-central-1.amazonaws.com/avg-projects/projected_gan/models/clevr.pkl

#! wget https://s3.eu-central-1.amazonaws.com/avg-projects/projected_gan/models/ffhq.pkl

#! wget https://s3.eu-central-1.amazonaws.com/avg-projects/projected_gan/models/flowers.pkl

#! wget https://s3.eu-central-1.amazonaws.com/avg-projects/projected_gan/models/landscape.pkl

! wget https://s3.eu-central-1.amazonaws.com/avg-projects/projected_gan/models/pokemon.pkl

# 画像表示

import matplotlib.pyplot as plt

from PIL import Image

import os

import numpy as np

def display_pic(folder):

fig = plt.figure(figsize=(30, 60))

files = os.listdir(folder)

files.sort()

for i, file in enumerate(files):

img = Image.open(folder+'/'+file)

images = np.asarray(img)

ax = fig.add_subplot(10, 5, i+1, xticks=[], yticks=[])

image_plt = np.array(images)

ax.imshow(image_plt)

ax.set_xlabel(file, fontsize=25)

plt.show()

plt.close()

# リセットフォルダ

import shutil

def reset_folder(path):

if os.path.isdir(path):

shutil.rmtree(path)

os.makedirs(path,exist_ok=True)

# 動画再生

from IPython.display import display, HTML

from IPython.display import HTML

def display_mp4(path):

print('prepere to play movie...')

from base64 import b64encode

mp4 = open(path,'rb').read()

data_url = "data:video/mp4;base64," + b64encode(mp4).decode()

display(HTML("""

</video>

""" % data_url))

　まず、gen_images.pyでサンプル画像を生成してみましょう。引数は、–outdirで出力フォルダ、–truncで変化度合い（数字が大きいほど変化が大きい）、–seedsで乱数の指定（＝出力個数）、–networkで学習済みパラメータの指定です。

# サンプル画像生成
reset_folder('out')
! python gen_images.py --outdir=out\
                       --trunc=1.0\
                       --seeds=20-29 \
                       --network=pokemon.pkl

# サンプル画像生成

reset_folder('out')

! python gen_images.py --outdir=out\

--trunc=1.0\

--seeds=20-29 \

--network=pokemon.pkl

# 画像の表示
display_pic('out')

1 2	# 画像の表示 display_pic('out')

　今度は、gen_video.pyで補完動画を作成してみましょう。引数は、–outdirで出力ファイル名、–truncで変化度合い（数字が大きいほど変化が大きい）、–seedsで乱数の指定（＝ベクトル個数）、–gridで出力形状、–networkで学習済みパラメータの指定です。

# 補完動画の作成
! python gen_video.py --output=lerp.mp4\
                      --trunc=1.0\
                      --seeds=20-49\
                      --grid=3x2 \
                      --network=pokemon.pkl

# 補完動画の作成

! python gen_video.py --output=lerp.mp4\

--trunc=1.0\

--seeds=20-49\

--grid=3x2 \

--network=pokemon.pkl

# 動画の再生
display_mp4('lerp.mp4')

1 2	# 動画の再生 display_mp4('lerp.mp4')

　別のパラメータも試してみましょう。補完動画の作成で、–network=church.pklに変更すると、

　もう１つ。補完動画の作成で、–network=art_painting.pklに変更すると、

　では、また。

（オリジナルgithub）https://github.com/autonomousvision/projected_gan

こんにちは。いつも大変有用な記事をありがとうございます。
さて、公開されているcolabを早速実行してみたのですが、

# サンプル画像生成
を実行すると、下記エラーのためその先へ進まないのですが、原因や解決法はお分かりになりますか？

AttributeError: ‘Upsample’ object has no attribute ‘recompute_scale_factor’

以上、よろしくお願いいたします。

Projected GANで、画像生成の学習効率を高める

1.はじめに

2.Projected GANとは？

3.コード

2 件のコメント

さよへ返信するコメントをキャンセル

ABOUTこの記事をかいた人

NEW POSTこのライターの最新記事

Animate Anyoneで、１枚の画像から動画を生成する

SVDで静止画から動画を生成する

DiffMorpherを使って、拡散モデルでモーフィングを行う

Domo AIで、実写動画をアニメ化する

最近の投稿

最近のコメント

アーカイブ

カテゴリー

メタ情報

1.はじめに

2.Projected GANとは？

3.コード

2 件のコメント

さよ へ返信する コメントをキャンセル

RECOMMENDこちらの記事も人気です。

DeepDreamで動画を悪夢に変換する

PF-AFNで、モデルに衣服を仮装試着させる

PSPNetで、画像をピクセル単位でカテゴリ分類する

PULSEで低解像度の顔画像を高解像度に変換する

Stable Diffusionのimg2imgをGoogle Cola…

Hard Prompts Made Easyで、画像生成AIのpromp…

SONY Neural Network Consoleで指原莉乃をもっと…

Anime2Sketch で、アニメ画をスケッチ画に変換する

ABOUTこの記事をかいた人

NEW POSTこのライターの最新記事

Animate Anyoneで、１枚の画像から動画を生成する

SVDで静止画から動画を生成する

DiffMorpherを使って、拡散モデルでモーフィングを行う

Domo AIで、実写動画をアニメ化する

最近の投稿

最近のコメント

アーカイブ

カテゴリー

メタ情報

さよへ返信するコメントをキャンセル