wav2lipで、１枚の顔画像を音声から動かす

1.はじめに

　今回ご紹介するのは、ml4aというPythonライブラリに含まれている、定番の「1枚の顔画像を音声から動かす」 wav2lip という技術です。

2.ml4aとは？

　ml4aは、機械学習でアートを作成するためのPythonライブラリで、人気の高い深層学習のモデルを簡単なAPIで動かすことができます。

　例えば、実写をアニメ化する Cartoonization、実写を悪夢に変換する deepdream、実写をスケッチに変換する photosketch、絵のスタイル転送する style_transfer、画像を生成する styleGAN、そして wav2lip など様々なモデルを簡単なAPIで動かすことが出来ます。

　それでは、早速コードを動かしてみましょう。

3.コード

　コードはGoogle Colabで動かす形にしてGithubに上げてありますので、それに沿って説明して行きます。自分で動かしてみたい方は、この「リンク」をクリックし表示されたノートブックの先頭にある「Colab on Web」ボタンをクリックすると動かせます。

　まず、セットアップを行います。ml4aをインストールして、ライブラリを３つインポートするだけで準備は完了です。残りは、サンプルデータのダウンロードとサンプリング・レートを自動チェックしたかったので関数を１つ定義しているだけです。

#@title セットアップ
# ml4aインストール
!pip install tensorflow==1.15.0
!pip install imageio==2.4.1
!pip3 install --quiet ml4a

# ライブラリ・インポート
from ml4a import audio
from ml4a import image
from ml4a.models import wav2lip

# サンプルデータ・ダウンロード
import gdown
gdown.download('https://drive.google.com/uc?id=1JxpWvO7ssUbO3O_4Wvqf-tTa23GiP-1Y', './data.zip', quiet=False)
! unzip data.zip

# サンプリング・レート取得関数
def get_rate(file_path):
    import wave
    wf = wave.open(file_path, "r")
    fs = wf.getframerate()
    return fs

#@title セットアップ

# ml4aインストール

!pip install tensorflow==1.15.0

!pip install imageio==2.4.1

!pip3 install --quiet ml4a

# ライブラリ・インポート

from ml4a import audio

from ml4a import image

from ml4a.models import wav2lip

# サンプルデータ・ダウンロード

import gdown

gdown.download('https://drive.google.com/uc?id=1JxpWvO7ssUbO3O_4Wvqf-tTa23GiP-1Y', './data.zip', quiet=False)

! unzip data.zip

# サンプリング・レート取得関数

def get_rate(file_path):

import wave

wf = wave.open(file_path, "r")

fs = wf.getframerate()

return fs

　さあ、後は image に顔画像ファイルのpath（jpg or png）を、audio に音声ファイルのpath（wav）を設定すれば、一発で動きます。簡単！

#@title wav2lip変換
image = './image/03.jpg' #@param {type:"string"}
audio ='./audio/coffe.wav' #@param {type:"string"}
rate = get_rate(audio)

wav2lip.run(image, 
            audio,
            sampling_rate = rate,
            output_video = 'output.mp4', 
            pads = [0, 10, 0, 0],
            resize_factor = 2, 
            crop = None, 
            box = None)

#@title wav2lip変換

image = './image/03.jpg' #@param {type:"string"}

audio ='./audio/coffe.wav' #@param {type:"string"}

rate = get_rate(audio)

wav2lip.run(image,

audio,

sampling_rate = rate,

output_video = 'output.mp4',

pads = [0, 10, 0, 0],

resize_factor = 2,

crop = None,

box = None)

　作成した動画を再生します。

#@title 動画の再生
from IPython.display import HTML
from base64 import b64encode

mp4 = open('output.mp4', 'rb').read()
data_url = 'data:video/mp4;base64,' + b64encode(mp4).decode()
HTML(f"""
<video width="70%" height="70%" controls>
      <source src="{data_url}" type="video/mp4">
</video>""")