Stable Diffusionに文章を入力するだけで動画生成できる text2video Extension 登場

フルタニ

こんにちは、フルタニです。放送局で番組作りをしてました。 text2video Extension を書きます。

「こんな動画を作って欲しい」とAIに入力するだけで動画が作れると便利ですよね。

ドラえもんのポケットのような機能を持つサービスが登場しました。

AIが動画生成をしてくれる、Stable Diffusionのムービー生成AI「text2video Extension」です。

23年3月に登場したばかりの新サービスは、作りたい画像イメージを文章にして入力するだけ。

すると瞬時に数秒間の動画が生成されます。

初心者にはサンプル動画のような作り込みはできませんが、シンプルな背景画像など、単純なイメージの動画なら作れそうです。

文章を入力するだけで動画生成できる text2video Extension

text2video ExtensionはStable Diffusion web UI用の拡張機能です。

使うにはStable Diffusion web UIが必要です。

手っ取り早く使いたい人はGoogleColabを利用する方法を選択してください。

自分のPCにインストールして使いたい人はAUTOMATIC1111を設定する方法からStable Diffusion web UIを準備してください。

Stable Diffusion

text2video Extension を入手する

text2video Extensionは動画作成機能を持つModelScopeをStable Diffusionに追加設定するもの。

いわゆる拡張機能です。

拡張機能を利用するには、Stable Diffusion web UIの画面から[拡張機能][URLからインストール][拡張機能のリポジトリのURL]を選択し、公式ページのURLを入力したのちインストールボタンを押します。

入力する公式ページのURLは【https://github.com/deforum-art/sd-webui-text2video】です。

ページはこちらから。

GitHub – deforum-art/sd-webui-text2video: Auto1111 extension implementing text2video diffusion models (like ModelScope or VideoCrafter) using only Auto1111 webui dependencies

拡張機能のインストールが終わったら、作業用のフォルダをつくります。

stable-diffusion-webui/modelsと移動して

一つ目は、[ModelScope]という名前の新規フォルダ。

さらにModelScopeの中に[t2v]という名前の新規フォルダを作ります。

【stable-diffusion-webui/models/ModelScope/t2v】という形になります。

modelscope-damo-text-to-video-synthesis をインストール

フォルダができたら、中に入れるソフトをダウンロードします。

text-to-videoはGPUの性能に依存します。GPUのVRAM容量が6GB以下の場合はkabachuha/modelscope-damo-text2video-pruned-weights at mainに軽量版モデル「modelscope-damo-text2video-pruned-weights」があるのでそちらを選択します。

次に、ダウンロードしたファイルをt2vフォルダの中に移動します。

移動するファイルは4つあります。

  • VQGAN_autoencoder.pth
  • configuration.json(注意)
  • open_clip_pytorch_model.bin
  • text2video_pytorch_model.pth

いずれもHuggingFaceからダウンロードできます。

configuration.jsonだけは「↓」と書かれた部分のリンクを押してファイルを直接ダウンロードします。

configuration.json(注意)を除いた三つのファイルを【stable-diffusion-webui/models/ModelScope/t2v】のフォルダにコピペします。

configuration.json のインストール

configuration.jsonのインストールには一手間かかります。

modelscope-damo-text-to-video-synthesisのページにあるconfiguration.jsonをクリックすると操作パネルが表示されます。

左上にある【</>raw】というボタンをクリックします。

すると、別画面が表示されるので、右クリックして[名前を付けて保存]を選択。

t2vフォルダに格納してください。

Stable Diffusion web UIを再起動します。

するとStable Diffusion web UIにModelscope Text2Videoというタブが追加されているのが確認できればインストール完了です。

ModelScope text2video Extensionの使い方

使い方は静止画の生成に使うtxt2imgと同じです。

主な設定項目は4つあります。

  • Model Type
  • プロンプト・ネガティブプロンプト
  • frames
  • 幅・高さ

フレーム数とフレームレートを掛け合わせると動画の尺が決まります。

フレーム数は24もしくは30が標準値です。

幅・高さを変えることで動画の解像度が決まります。

プロンプト枠に生成したい動画の説明を英文テキストで入力しGENERATEをクリックします。

動画生成にかかる時間はGPUの性能や動画の解像度・長さにより変わります。

時間がかかるので気長に待ちます。

完了したらClick here after the generation to show the videoをクリックすることで試写できます。

チュートリアル動画

まとめ

高精細動画の生成など、PCに負荷がかかると途中で止まってしまうなど課題が目立つサービスですが、いずれ解決されるでしょう。

動画生成サービスの先行きを見通す意味でも触っておいて損はないサービスだと思います。

text2videoのよくある質問

生成した動画の出力先はどこですか
Stable Diffusion web UIの
webui\outputs\img2img-images\text2video にサブフォルダが自動生成されます。
その中に連番の静止画(PNGファイル)と動画ファイル(MP4)が出力・保存されます。