CodeFormerで、低画質の顔画像を高画質化する

1.はじめに

　今回ご紹介するのは、Transfomer ベースの予測ネットワークを使うことによって、低画質の顔画像を高画質化する CodeFormer という技術です。

＊この論文は、2022.6に提出されました。

2.CodeFomerとは？

　下記は、CodeFormerの概要図で、２段階で学習を行います。まず、（a）自己再構成学習を行います。高画質画像（Ih）から高画質エンコーダー（HQ Encoder）を通して画像特徴量（Zh）を抽出し、ニアレストネイバー法（Nearest-Neighbor Matching）で離散コードブック（Codebook C）にマッピングし、デコーダー（HQ Decoder）で高画質画像に戻すことを学習します。ここで学習した離散コードブック以降は次で使用します。

　次に、（b）最終的なネットワークの学習を行います。低画質画像（IL）から低画質エンコーダー（LQ Encoder）を通して画像特徴量（ZL）を抽出します。ここで、Transformer による予測ネットワーク（Code Prediction）を使って、先程学習した離散コードブック以降に接続して学習するのがミソです。さらに、CFT で低画質エンコーダーからデコーダーへ流す情報を重み w で調整することによって画像品質と忠実度のトレードオフを調整することができます。

3.コード

　コードはGoogle Colabで動かす形にしてGithubに上げてありますので、それに沿って説明して行きます。自分で動かしてみたい方は、この「リンク」をクリックし表示されたノートブックの先頭にある「Open in Colab」ボタンをクリックすると動かせます。

　まず、セットアップを行います。

#@title **セットアップ**

# Clone CodeFormer and enter the CodeFormer folder
%cd /content
!rm -rf CodeFormer
!git clone https://github.com/cedro3/CodeFormer.git
%cd CodeFormer

# Set up the environment
# Install python dependencies
!pip install -r requirements.txt
# Install basicsr
!python basicsr/setup.py develop

# Download the pre-trained model
!python scripts/download_pretrained_models.py facelib
!python scripts/download_pretrained_models.py CodeFormer

# Visualization function
import cv2
import matplotlib.pyplot as plt
def display(img1, img2):
  fig = plt.figure(figsize=(25, 10))
  ax1 = fig.add_subplot(1, 2, 1) 
  plt.title('Input', fontsize=16)
  ax1.axis('off')
  ax2 = fig.add_subplot(1, 2, 2)
  plt.title('CodeFormer', fontsize=16)
  ax2.axis('off')
  ax1.imshow(img1)
  ax2.imshow(img2)
def imread(img_path):
  img = cv2.imread(img_path)
  img = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
  return img

# display result
from IPython.display import clear_output
import os
import glob
def display_result(input_folder, result_folder):
  input_list = sorted(glob.glob(os.path.join(input_folder, '*')))
  for input_path in input_list:
    img_input = imread(input_path)
    basename = os.path.splitext(os.path.basename(input_path))[0]
    output_path = os.path.join(result_folder, basename+'.png')
    img_output = imread(output_path) 
    display(img_input, img_output)

# reset_folder
import shutil
def reset_folder(path):
    if os.path.isdir(path):
      shutil.rmtree(path)
    os.makedirs(path,exist_ok=True)

#@title **セットアップ**

# Clone CodeFormer and enter the CodeFormer folder

%cd /content

!rm -rf CodeFormer

!git clone https://github.com/cedro3/CodeFormer.git

%cd CodeFormer

# Set up the environment

# Install python dependencies

!pip install -r requirements.txt

# Install basicsr

!python basicsr/setup.py develop

# Download the pre-trained model

!python scripts/download_pretrained_models.py facelib

!python scripts/download_pretrained_models.py CodeFormer

# Visualization function

import cv2

import matplotlib.pyplot as plt

def display(img1, img2):

fig = plt.figure(figsize=(25, 10))

ax1 = fig.add_subplot(1, 2, 1)

plt.title('Input', fontsize=16)

ax1.axis('off')

ax2 = fig.add_subplot(1, 2, 2)

plt.title('CodeFormer', fontsize=16)

ax2.axis('off')

ax1.imshow(img1)

ax2.imshow(img2)

def imread(img_path):

img = cv2.imread(img_path)

img = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)

return img

# display result

from IPython.display import clear_output

import os

import glob

def display_result(input_folder, result_folder):

input_list = sorted(glob.glob(os.path.join(input_folder, '*')))

for input_path in input_list:

img_input = imread(input_path)

basename = os.path.splitext(os.path.basename(input_path))[0]

output_path = os.path.join(result_folder, basename+'.png')

img_output = imread(output_path)

display(img_input, img_output)

# reset_folder

import shutil

def reset_folder(path):

if os.path.isdir(path):

shutil.rmtree(path)

os.makedirs(path,exist_ok=True)

　最初に、inference_codeformer.py を使用し、引数に–has_aligned を加えてクロップした顔を高画質化してみます。入力画像は、inputs/cropped_faces フォルダに入っているものを使用します。

#@title **クロップした顔のデモ**
input_folder = 'inputs/cropped_faces' 
w = 0.7 #@param {type:"slider", min:0.1, max:0.9, step:0.1}

! python inference_codeformer.py --w $w\
                                  --test_path $input_folder\
                                  --has_aligned

clear_output()
result_folder = 'results/cropped_faces_'+str(w)+'/restored_faces'
display_result(input_folder, result_folder )

#@title **クロップした顔のデモ**

input_folder = 'inputs/cropped_faces'

w = 0.7 #@param {type:"slider", min:0.1, max:0.9, step:0.1}

! python inference_codeformer.py --w $w\

--test_path $input_folder\

--has_aligned

clear_output()

result_folder = 'results/cropped_faces_'+str(w)+'/restored_faces'

display_result(input_folder, result_folder )

　最初の５枚のみ表示しています。

　次に、inference_codeformer.py を使用し、引数に–bg_upsampler realesrgan を加えて背景も含めて画像全体を高画質化してみます。入力画像は、inputs/whole_imgs フォルダに入っているものを使用します。

#@title **画像全体のデモ**
input_folder = 'inputs/whole_imgs' 
w = 0.7 #@param {type:"slider", min:0.1, max:0.9, step:0.1}


! python inference_codeformer.py --w $w\
                                  --test_path $input_folder\
                                  --bg_upsampler realesrgan

clear_output()
result_folder = 'results/whole_imgs_'+str(w)+'/final_results'
display_result(input_folder, result_folder )

#@title **画像全体のデモ**

input_folder = 'inputs/whole_imgs'

w = 0.7 #@param {type:"slider", min:0.1, max:0.9, step:0.1}

! python inference_codeformer.py --w $w\

--test_path $input_folder\

--bg_upsampler realesrgan

clear_output()

result_folder = 'results/whole_imgs_'+str(w)+'/final_results'

display_result(input_folder, result_folder )

　最初の５枚のみ表示しています。

　それでは、オリジナル画像でやってみましょう。picフォルダに自分の用意した画像をアップロードして下さい。そして、picにファイル名を１つ指定して実行します。とりあえず、picフォルダには、01.jpg〜04.jpgまで４枚の画像がサンプルとして入っていますので、このサンプルで動かしてみましょう。

#@title **画像全体オリジナル**
import os
import shutil
from PIL import Image

pic ='01.jpg'#@param {type:"string"} 
input_folder = 'inputs/whole_imgs_original'
reset_folder(input_folder)
im = Image.open('pic/'+pic)
im.save(input_folder+'/'+os.path.splitext(pic)[0]+'.png')

w = 0.7 #@param {type:"slider", min:0.1, max:0.9, step:0.1}


! python inference_codeformer.py --w $w\
                                  --test_path $input_folder\
                                  --bg_upsampler realesrgan\
                                  --face_upsample

clear_output()
result_folder = 'results/whole_imgs_original_'+str(w)+'/final_results'
display_result(input_folder, result_folder )

#@title **画像全体オリジナル**

import os

import shutil

from PIL import Image

pic ='01.jpg'#@param {type:"string"}

input_folder = 'inputs/whole_imgs_original'

reset_folder(input_folder)

im = Image.open('pic/'+pic)

im.save(input_folder+'/'+os.path.splitext(pic)[0]+'.png')

w = 0.7 #@param {type:"slider", min:0.1, max:0.9, step:0.1}

! python inference_codeformer.py --w $w\

--test_path $input_folder\

--bg_upsampler realesrgan\

--face_upsample

clear_output()

result_folder = 'results/whole_imgs_original_'+str(w)+'/final_results'

display_result(input_folder, result_folder )

　下記を実行すると高画質化した画像をダウンロードします。

#@title **ダウンロード**
#@markdown -google chrome 専用
from google.colab import files
files.download(result_folder+'/'+os.path.splitext(pic)[0]+'.png')

#@title **ダウンロード**

#@markdown -google chrome 専用

from google.colab import files

files.download(result_folder+'/'+os.path.splitext(pic)[0]+'.png')

　picを02.jpg〜04.jpgに変更し、同様に実行してみます。

　従来のGANを使用する方法より安定した高画質化が出来ている様です。また、現在 HuggingFace でこの機能をWeb UIで簡単に試すことが出来ます。

　では、また。

（オリジナルgithub）https://github.com/sczhou/CodeFormer

2022.9.23 動画版Colabの追加

　動画（音声付き）を一旦フレームにバラして、フレーム毎に高画質化して、動画にまとめるコードのリンクを追加します。１秒間の動画（30フレーム）を高画質化するのに１分程度かかるので短い動画でお試し下さい。

2022.11.21 白黒動画版Colabの追加

　白黒動画（音声付き）を高画質化し、さらにカラー化（DeOldify）するColabをのリンク追加します。１秒間の動画（30フレーム）を高画質化するのに１分程度かかるので短い動画でお試し下さい。

（twitter投稿）

CodeFormerは、Transfomer ベースの予測ネットワークを使うことによって、低画質の顔画像を高画質化する技術です。

これは、1968年（昭和43年）リリースの歌謡曲のビデオを高画質化したものです^^

ブログ：https://t.co/ok6Dp6BoVx pic.twitter.com/OCNpgdw1gV
— cedro (@jun40vn) November 7, 2022

このブログでAIに興味を持ち、いつも勉強させていただいています。

動画版Colabのソースコードを拝見し、参考にしながら、自分のPCでローカル構築してみました。おかげさまで稼働はするのですが、1点わからない箇所があり、ご教授いただければ幸いです。

「動画の読み込み」1分1800フレームの制限を外すには、どのファイルのどこをどのように修正したらいいのでしょうか？

よろしくお願いいたします。

CodeFormerで、低画質の顔画像を高画質化する

1.はじめに

2.CodeFomerとは？

3.コード

2022.9.23 動画版Colabの追加

2022.11.21 白黒動画版Colabの追加

5 件のコメント

コメントを残すコメントをキャンセル

ABOUTこの記事をかいた人

NEW POSTこのライターの最新記事

Animate Anyoneで、１枚の画像から動画を生成する

SVDで静止画から動画を生成する

DiffMorpherを使って、拡散モデルでモーフィングを行う

Domo AIで、実写動画をアニメ化する

最近の投稿

最近のコメント

アーカイブ

カテゴリー

メタ情報

1.はじめに

2.CodeFomerとは？

3.コード

2022.9.23 動画版Colabの追加

2022.11.21 白黒動画版Colabの追加

5 件のコメント

コメントを残す コメントをキャンセル

RECOMMENDこちらの記事も人気です。

Yolo の学習済みモデルでサクッと物体検出をしてみる

Infinite nature で、空撮動画を無限に生成する

StyleGANを使った画像編集をe4eで高速化する

PyTorch 100年前のモノクロ写真をサクッとカラー写真にしてみる

PyTorch 文章から画像をサクッと生成してみる

デイープラーニングのWebサービスで、動画から3Dアニメキャラを動かしてみる

StyleGAN_NADAで、画像生成モデルのドメイン変換を変換先ドメイ…

wav2lip-HQで、高品質のリップシンクを行う

ABOUTこの記事をかいた人

NEW POSTこのライターの最新記事

Animate Anyoneで、１枚の画像から動画を生成する

SVDで静止画から動画を生成する

DiffMorpherを使って、拡散モデルでモーフィングを行う

Domo AIで、実写動画をアニメ化する

最近の投稿

最近のコメント

アーカイブ

カテゴリー

メタ情報

コメントを残すコメントをキャンセル