cedro-blog

wav2lip-HQで、高品質のリップシンクを行う

1.はじめに

 以前、人物動画の口を音声に合わせて動かす、wav2lipをご紹介しました。今回ご紹介するのは、その高解像度版 wav2lip-HQです。

2.wav2lip-HQとは?

 画像の超解像(ESRGAN)と顔セグメンテーション(face_segmentation)を使用して、リップシンク ビデオの視覚的品質を向上させています。

3.コード

 コードはGoogle Colabで動かす形にしてGithubに上げてありますので、それに沿って説明して行きます。自分で動かしてみたい方は、この「リンク」をクリックし表示されたノートブックの先頭にある「Open in Colab」ボタンをクリックすると動かせます。

  まず、セットアップを行います。

 

 次に、3つの学習済みファイル(pth)を google driveからダウンロードします。このとき、エラーが発生する場合があります。

 これは、wav2lip_gan.pth esrgan_max.pth 2つの学習済みファイル(pth)のダウンロードで、Access denied with the following error: が発生した例です。こうなった場合は、それぞれのリンクからブラウザで学習済みファイル(pth)をダウンロードし、次のブロックを実行し Colabgoogle drive を接続して対処します。エラーが発生しなかった場合は、次のブロックはスキップして下さい。

 上記ブロックを実行し Colabgoogle drive を接続したら、学習済みファイル(pth)を google drive にアップロードします。そして、colabの左ウインドウで、学習済みファイル(pth)をgoogle drive から checkpoints フォルダへドラッグ&ドロップで移動させます(反応に少し時間が掛かります)。

 それでは、リップシンクしてみましょう。動画(mp4)をfaceに、音声(mp4)をaudioに設定します。このとき、音声が動画より短いと動画を音声の長さで切断し、音声が動画より長いと動画を先頭から繰り返します。ここでは、サンプル動画を使い、face taki.mp4audio china.mp4を設定します。

 なお、自分で用意した動画や音声を使用する場合は、videos フォルダにアップロードして下さい。

 作成した動画を再生します。

https://cedro3.com/wp-content/uploads/2023/01/taki_china.mp4

 作成した動画をダウンロードします。

 では、また。

(オリジナルgithub)https://github.com/Markfryazino/wav2lip-hq

(twitter投稿)