Stable Diffusionに文章を入力するだけで動画生成できる text2video Extension 登場

こんにちは、フルタニです。放送局で番組作りをしてました。 text2video Extension を書きます。

「こんな動画を作って欲しい」とAIに入力するだけで動画が作れると便利ですよね。

ドラえもんのポケットのような機能を持つサービスが登場しました。

AIが動画生成をしてくれる、Stable Diffusionのムービー生成AI「text2video Extension」です。

23年3月に登場したばかりの新サービスは、作りたい画像イメージを文章にして入力するだけ。

すると瞬時に数秒間の動画が生成されます。

初心者にはサンプル動画のような作り込みはできませんが、シンプルな背景画像など、単純なイメージの動画なら作れそうです。

Contents

文章を入力するだけで動画生成できる text2video Extension
ModelScope text2video Extensionの使い方
チュートリアル動画
まとめ
text2videoのよくある質問

文章を入力するだけで動画生成できる text2video Extension

text2video ExtensionはStable Diffusion web UI用の拡張機能です。

使うにはStable Diffusion web UIが必要です。

手っ取り早く使いたい人はGoogleColabを利用する方法を選択してください。

自分のPCにインストールして使いたい人はAUTOMATIC1111を設定する方法からStable Diffusion web UIを準備してください。

2023.10.24

2023.10.24

text2video Extension を入手する

text2video Extensionは動画作成機能を持つModelScopeをStable Diffusionに追加設定するもの。

いわゆる拡張機能です。

拡張機能を利用するには、Stable Diffusion web UIの画面から[拡張機能][URLからインストール][拡張機能のリポジトリのURL]を選択し、公式ページのURLを入力したのちインストールボタンを押します。

入力する公式ページのURLは【https://github.com/deforum-art/sd-webui-text2video】です。

ページはこちらから。

GitHub – deforum-art/sd-webui-text2video: Auto1111 extension implementing text2video diffusion models (like ModelScope or VideoCrafter) using only Auto1111 webui dependencies

拡張機能のインストールが終わったら、作業用のフォルダをつくります。

stable-diffusion-webui/modelsと移動して

一つ目は、[ModelScope]という名前の新規フォルダ。

さらにModelScopeの中に[t2v]という名前の新規フォルダを作ります。

【stable-diffusion-webui/models/ModelScope/t2v】という形になります。

modelscope-damo-text-to-video-synthesis　をインストール

フォルダができたら、中に入れるソフトをダウンロードします。

text-to-videoはGPUの性能に依存します。GPUのVRAM容量が6GB以下の場合はkabachuha/modelscope-damo-text2video-pruned-weights at mainに軽量版モデル「modelscope-damo-text2video-pruned-weights」があるのでそちらを選択します。

次に、ダウンロードしたファイルをt2vフォルダの中に移動します。

移動するファイルは4つあります。

VQGAN_autoencoder.pth
configuration.json（注意）
open_clip_pytorch_model.bin
text2video_pytorch_model.pth

いずれもHuggingFaceからダウンロードできます。

configuration.jsonだけは「↓」と書かれた部分のリンクを押してファイルを直接ダウンロードします。

configuration.json（注意）を除いた三つのファイルを【stable-diffusion-webui/models/ModelScope/t2v】のフォルダにコピペします。

configuration.json　のインストール

configuration.jsonのインストールには一手間かかります。

modelscope-damo-text-to-video-synthesisのページにあるconfiguration.jsonをクリックすると操作パネルが表示されます。

左上にある【</>raw】というボタンをクリックします。

すると、別画面が表示されるので、右クリックして[名前を付けて保存]を選択。

t2vフォルダに格納してください。

Stable Diffusion web UIを再起動します。

するとStable Diffusion web UIにModelscope Text2Videoというタブが追加されているのが確認できればインストール完了です。

ModelScope text2video Extensionの使い方

使い方は静止画の生成に使うtxt2imgと同じです。

主な設定項目は4つあります。

Model Type
プロンプト・ネガティブプロンプト
frames
幅・高さ

フレーム数とフレームレートを掛け合わせると動画の尺が決まります。

フレーム数は24もしくは30が標準値です。

幅・高さを変えることで動画の解像度が決まります。

プロンプト枠に生成したい動画の説明を英文テキストで入力しGENERATEをクリックします。

動画生成にかかる時間はGPUの性能や動画の解像度・長さにより変わります。

時間がかかるので気長に待ちます。

完了したらClick here after the generation to show the videoをクリックすることで試写できます。

チュートリアル動画

まとめ

高精細動画の生成など、PCに負荷がかかると途中で止まってしまうなど課題が目立つサービスですが、いずれ解決されるでしょう。

動画生成サービスの先行きを見通す意味でも触っておいて損はないサービスだと思います。

text2videoのよくある質問

生成した動画の出力先はどこですか: Stable Diffusion web UIの
webui\outputs\img2img-images\text2video　にサブフォルダが自動生成されます。
その中に連番の静止画（PNGファイル）と動画ファイル（MP4）が出力・保存されます。

Stable Diffusionに文章を入力するだけで動画生成できる text2video Extension 登場

文章を入力するだけで動画生成できる text2video Extension

text2video Extension を入手する

modelscope-damo-text-to-video-synthesis　をインストール

configuration.json　のインストール

ModelScope text2video Extensionの使い方

チュートリアル動画

まとめ

text2videoのよくある質問

関連

自己紹介

人気の投稿とページ

YouTubeショート動画

YouTubeチャンネル

カテゴリー

固定ページ

文章を入力するだけで動画生成できる text2video Extension

text2video Extension を入手する

modelscope-damo-text-to-video-synthesis をインストール

configuration.json のインストール

ModelScope text2video Extensionの使い方

チュートリアル動画

まとめ

text2videoのよくある質問

関連

自己紹介

人気の投稿とページ

YouTubeショート動画

YouTubeチャンネル

カテゴリー

固定ページ

modelscope-damo-text-to-video-synthesis　をインストール

configuration.json　のインストール