AnimateDiffで、文から動画を生成する

1.はじめに

 今回ご紹介するのは、文から動画を生成するモデル(txt2mov)の最新技術AnimateDiffです。この技術の特徴は、ベースモデルで一度学習すれば、ベースモデルからDreamBoothやLoRAなどで作った派生モデルに学習なしで適用できることです。

*この論文は、2023.7に提出されました。

2.AnimateDiffとは?

 下記は、AnimateDiffの概略図です。上段がTraining(学習時)です。ベースモデルの各レイヤーに Motion Moduleを挟み込み、ベースモデルのパラメータはフリーズさせて、Motion Moduleのパラメータのみをビデオデータセットで学習させます。

 下段がInference(推論時)です。ベースモデルからDreamBoothやLoRAなどで作った派生モデルの各レイヤーに学習済みのMotion Moduleを挟み込み、推論させます。このときモデルのファインチューニングなどは全く必要がありません。

3.コード

 オリジナルのgithubとは別に、camenduru氏が作成したgoogle colabが使い易かったので、ここではそれを紹介します。この[リンク]をクリックすると、そのgoogle colabが開けます。

 まず、セットアップを行います。派生モデルは、デフォルトでは、toonyou_beta3.safetensorsを読み込むようになっています。その他のモデルを読み込む場合は適宜コメントアウト(#)を設定し直して下さい。

 

 文から動画を作成する指示は、configs/prompts/*.yamlファイルで設定する形になっています。ここでは、1-ToonYou.yamlの設定を見ておきましょう。prompt(プロンプト)とn_prompt(ネガティブ・プロンプト)など、必要な内容が4つ記入されています。自分の設定でやりたい場合は、このフォーマットで作成すればOKです。

 

 それでは文から動画を作成してみましょう。デフォルトでは、1-ToonYou.yamlを読み込むようになっています。その他の指示を読み込む場合は適宜コメントアウト(#)を設定し直して下さい。

 動作が完了すると、samplesフォルダにGIF動画が作成されます。

0.”best quality, masterpiece, 1girl, looking at viewer, blurry background, upper body, contemporary, dress”

1.”masterpiece, best quality, 1girl, solo, cherry blossoms, hanami, pink flower, white flower, spring season, wisteria, petals, flower, plum blossoms, outdoors, falling petals, white hair, black eyes,”

2.”best quality, masterpiece, 1boy, formal, abstract, looking at viewer, masculine, marble pattern”

3.”best quality, masterpiece, 1girl, cloudy sky, dandelion, contrapposto, alternate hairstyle,”

 動画品質はかなり良いです。また、今までのtxt2movは数を打って、その中から良いものを拾う必要がありましたが、この技術は歩留まりが信じられないほど高いです。技術は確実に進歩していますね。

(オリジナルgithub)https://github.com/guoyww/AnimateDiff

(twitter投稿)

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

日本語が含まれない投稿は無視されますのでご注意ください。(スパム対策)

ABOUTこの記事をかいた人

アバター

ディープラーニング・エンジニアを趣味でやってます。E資格ホルダー。 好きなものは、膨大な凡ショットから生まれる奇跡の1枚、右肩上がりのワクワク感、暑い国の新たな価値観、何もしない南の島、コード通りに動くチップ、完璧なハーモニー、仲間とのバンド演奏、数えきれない流れ星。