cedro-blog

PyMAFで、動画から人物の3Dモデルを推定する

1.はじめに

 動画から人物の3Dモデルを作成する手法が進歩しています。今回ご紹介するのは、PyMAFという手法で、以前より実際と3Dモデルの誤差が小さくなっています。

*この論文は、2021.4に提出されました。

2.PyMAFとは?

 PyMAFは、Pyramidal Mesh Alignment Feedback Loop の略で、以下にそのフローを示します。

 まず、画像から Encoder を通して特徴量を取り出し、Spatial Feature Pyramid で、その特徴量を何段階かアップサンプリングしたものを作ります。

 次に、この特徴量を元に回帰でメッシュを求めますが、一度の回帰で求めたパラメータではメッシュと実際にズレが生じます。そこで、Mesh Alignment Feedback Loop で、求めたメッシュをダウンサンプリングしたものと特徴量からパラメータを修正するループを廻し、パラメータを最適化します。

 一方で、Spatial Feature Pyramid から Auxiliary Pixel-wise Prediction(補助的なピクセル単位の予測)を求めてプロセスを監視し、ノイズ低減と信頼性向上に役立てます。

 では、コードを試してみましょう。

3.コード

 コードはオリジナルを少しいじったものをGithubに上げてあります。自分で動かしてみたい方は、この「リンク」をクリックし表示されたノートブックの先頭にある「Open in Colab」ボタンをクリックすると動かせます。

 まず、セットアップを行います。

 

 それでは、3Dモデルの推定を行います。video に音声付き動画ファイル名(*.mp4)を指定して実行します。ここでは、video = sample3.mp4 と指定しています。自分の用意した動画を使う場合は、videoフォルダにアップロードして下さい。

 なお、動画の生成時間は、元動画に写っている人物の数が多いと長くなります。

 

 保存された動画の再生は、以下を実行して下さい。

https://cedro3.com/wp-content/uploads/2022/11/output-4.mp4

 

 作成した動画のダウンロードは、以下を実行して下さい(Chrome専用です)。

 では、また。

(オリジナルgithub)https://github.com/HongwenZhang/PyMAF

(Twitterへの投稿)