「こんな動画を作って欲しい」とAIに入力するだけで動画が作れると便利ですよね。
ドラえもんのポケットのような機能を持つサービスが登場しました。
AIが動画生成をしてくれる、Stable Diffusionのムービー生成AI「text2video Extension」です。
23年3月に登場したばかりの新サービスは、作りたい画像イメージを文章にして入力するだけ。
すると瞬時に数秒間の動画が生成されます。
初心者にはサンプル動画のような作り込みはできませんが、シンプルな背景画像など、単純なイメージの動画なら作れそうです。
文章を入力するだけで動画生成できる text2video Extension
text2video ExtensionはStable Diffusion web UI用の拡張機能です。
使うにはStable Diffusion web UIが必要です。
手っ取り早く使いたい人はGoogleColabを利用する方法を選択してください。
自分のPCにインストールして使いたい人はAUTOMATIC1111を設定する方法からStable Diffusion web UIを準備してください。
text2video Extension を入手する
text2video Extensionは動画作成機能を持つModelScopeをStable Diffusionに追加設定するもの。
いわゆる拡張機能です。
拡張機能を利用するには、Stable Diffusion web UIの画面から[拡張機能][URLからインストール][拡張機能のリポジトリのURL]を選択し、公式ページのURLを入力したのちインストールボタンを押します。
入力する公式ページのURLは【https://github.com/deforum-art/sd-webui-text2video】です。
ページはこちらから。
拡張機能のインストールが終わったら、作業用のフォルダをつくります。
stable-diffusion-webui/modelsと移動して
一つ目は、[ModelScope]という名前の新規フォルダ。
さらにModelScopeの中に[t2v]という名前の新規フォルダを作ります。
【stable-diffusion-webui/models/ModelScope/t2v】という形になります。
modelscope-damo-text-to-video-synthesis をインストール
フォルダができたら、中に入れるソフトをダウンロードします。
text-to-videoはGPUの性能に依存します。GPUのVRAM容量が6GB以下の場合はkabachuha/modelscope-damo-text2video-pruned-weights at mainに軽量版モデル「modelscope-damo-text2video-pruned-weights」があるのでそちらを選択します。
次に、ダウンロードしたファイルをt2vフォルダの中に移動します。
移動するファイルは4つあります。
- VQGAN_autoencoder.pth
- configuration.json(注意)
- open_clip_pytorch_model.bin
- text2video_pytorch_model.pth
いずれもHuggingFaceからダウンロードできます。
configuration.jsonだけは「↓」と書かれた部分のリンクを押してファイルを直接ダウンロードします。
configuration.json(注意)を除いた三つのファイルを【stable-diffusion-webui/models/ModelScope/t2v】のフォルダにコピペします。
configuration.json のインストール
configuration.jsonのインストールには一手間かかります。
modelscope-damo-text-to-video-synthesisのページにあるconfiguration.jsonをクリックすると操作パネルが表示されます。
左上にある【</>raw】というボタンをクリックします。
すると、別画面が表示されるので、右クリックして[名前を付けて保存]を選択。
t2vフォルダに格納してください。
Stable Diffusion web UIを再起動します。
するとStable Diffusion web UIにModelscope Text2Videoというタブが追加されているのが確認できればインストール完了です。
ModelScope text2video Extensionの使い方
使い方は静止画の生成に使うtxt2imgと同じです。
主な設定項目は4つあります。
- Model Type
- プロンプト・ネガティブプロンプト
- frames
- 幅・高さ
フレーム数とフレームレートを掛け合わせると動画の尺が決まります。
フレーム数は24もしくは30が標準値です。
幅・高さを変えることで動画の解像度が決まります。
プロンプト枠に生成したい動画の説明を英文テキストで入力しGENERATEをクリックします。
動画生成にかかる時間はGPUの性能や動画の解像度・長さにより変わります。
時間がかかるので気長に待ちます。
完了したらClick here after the generation to show the videoをクリックすることで試写できます。
チュートリアル動画
まとめ
高精細動画の生成など、PCに負荷がかかると途中で止まってしまうなど課題が目立つサービスですが、いずれ解決されるでしょう。
動画生成サービスの先行きを見通す意味でも触っておいて損はないサービスだと思います。
text2videoのよくある質問
- 生成した動画の出力先はどこですか
- Stable Diffusion web UIの
webui\outputs\img2img-images\text2video にサブフォルダが自動生成されます。
その中に連番の静止画(PNGファイル)と動画ファイル(MP4)が出力・保存されます。
こんにちは、フルタニです。放送局で番組作りをしてました。 text2video Extension を書きます。