cedro-blog

One Shot Talking Face を使って音声で顔画像を動かす

1.はじめに

 今回ご紹介するのは、音声と1枚の顔画像を使って、顔画像がまるで話しているような動画を作成するOne Shot Talking Faceという技術です。

*この論文は、2022.12に提出されました。

2.One Shot Talking Face とは?

 下記が、One Shot Talking Faceの概略図です。まず、上段のAudio-visual Correlation Leraning(音声と画像の相関性学習)を行います。 特定話者の音声と顔のキーポイントの動きとの相関性をAudio-visual Correlation Transformer に学習させます。

 学習後は、One-shot Generation(音声と一枚の顔画像から動画作成)を行います。音声と1枚の顔画像をAudio-visual Correlation Transformerに入力すると顔のキーポイントの動きが予測が得られます。これをRelative Motion Transfer で時系列の連続性なども考慮して完成度を上げています。

3.コード

 コードはGoogle Colabで動かす形にしてGithubに上げてありますので、それに沿って説明して行きます。自分で動かしてみたい方は、この「リンク」をクリックし表示されたノートブックの先頭にある「Open in Colab」ボタンをクリックすると動かせます。

 まず、セットアップを行います。

 

 それでは、サンプルの音声と顔画像を使って、動画を作成してみましょう。wav_file_nameにはone-shot-talking-face/samples/audiosフォルダにあるwavファイル名を記入し、image_file_nameにはone-shot-talking-face/samples/imgsフォルダにあるjpgファイル名を記入して実行します。ここでは、wav_file_nameにはobama2.wavimage_file_nameにはpaint.jpgを設定しています。

 自分の用意した音声や顔画像を使用したい場合は、上記2つのフォルダにそれぞれアップロードして下さい。なお、音声はモノラル・ビットレート16000で60秒位を目安に(長いとエラーになります)、顔画像は256×256ピクセルのものを使用して下さい。

https://cedro3.com/wp-content/uploads/2023/01/160174.mp4

 下記を実行すると、作成した動画をダウンロードできます(google chrome専用)

では、また。

(オリジナルgithub)https://github.com/camenduru/one-shot-talking-face-colab

(twitter投稿)