wav2lipで、1枚の顔画像を音声から動かす

1.はじめに

 今回ご紹介するのは、ml4aというPythonライブラリに含まれている、定番の「1枚の顔画像を音声から動かす」 wav2lip という技術です。

2.ml4aとは?

 ml4aは、機械学習でアートを作成するためのPythonライブラリで、人気の高い深層学習のモデルを簡単なAPIで動かすことができます。

 例えば、実写をアニメ化する Cartoonization、実写を悪夢に変換する deepdream、実写をスケッチに変換する photosketch、絵のスタイル転送する style_transfer、画像を生成する styleGAN、そして wav2lip など様々なモデルを簡単なAPIで動かすことが出来ます。

 それでは、早速コードを動かしてみましょう。

3.コード

 コードはGoogle Colabで動かす形にしてGithubに上げてありますので、それに沿って説明して行きます。自分で動かしてみたい方は、この「リンク」をクリックし表示されたノートブックの先頭にある「Colab on Web」ボタンをクリックすると動かせます。

 まず、セットアップを行います。ml4aをインストールして、ライブラリを3つインポートするだけで準備は完了です。残りは、サンプルデータのダウンロードとサンプリング・レートを自動チェックしたかったので関数を1つ定義しているだけです。

 さあ、後は image に顔画像ファイルのpath(jpg or png)を、audio に音声ファイルのpath(wav)を設定すれば、一発で動きます。簡単!

 作成した動画を再生します。

 もう1つやってみましょう。今度は、image=’./image/01.jpg’, audio=’./tenki.wav’ と設定します。

 口は音声と連動して自然な感じで動いています。

 では、また。

(オリジナルgithub : https://github.com/ml4a/ml4a

2 件のコメント

  • 高橋 へ返信する コメントをキャンセル

    メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

    日本語が含まれない投稿は無視されますのでご注意ください。(スパム対策)

    ABOUTこの記事をかいた人

    アバター

    ディープラーニング・エンジニアを趣味でやってます。E資格ホルダー。 好きなものは、膨大な凡ショットから生まれる奇跡の1枚、右肩上がりのワクワク感、暑い国の新たな価値観、何もしない南の島、コード通りに動くチップ、完璧なハーモニー、仲間とのバンド演奏、数えきれない流れ星。