一枚の人物画像からトーキングフォトが生成できる SadTalker の使い方

フルタニ

こんにちは、フルタニです。放送局で番組作りをしてました。 SadTalker を書きます。

最近の動画に目立つのが、イラストや人物生成AI画像がアバターとなって喋る演出です。

トーキングフォトとか、リップシンク動画とも呼ばれます。

実在の人物に頼ることなしに人が話しかけるような演出ができる点が人気の秘密です。

作り方はAIに人物画像を一枚読み込ませるだけ。

音声もとにAIが音声にあった口の形や顔の動きを動画に生成してくれます。

上記のような美少女が語りかけてくれる動画は訴求力が高いこともあり、様々な使い道がありそうです。

とはいえ、トーキングフォトとか、リップシンク動画の作り方に困っている人も多いはず。

そこで、無料で作れる方法をご紹介します。

用意するのは素材となる人物写真と音声ファイルだけ。興味のある人はチャレンジしてみてください。

画像からリップシンク動画を作る方法

結論から言うと、手っ取り早くトーキングフォトが作りたい人には有料サービスをお勧めします。

ツールはいくつかありますが、お金に余裕がある人は有料ツールCreative Reality Studioを選ぶのが一番楽です。

Creative Reality Studioはサブスクではないので、都度課金されます。

いや、待ってください。だって俺金ないし。タイトルに無料と書いてあったから見にきたわけで。なんとかならないの。

お金のない人は少し手間がかかりますが、開発者向けのツールを使うことでトーキングフォトが作れます。

それが SadTalker

仕上がりはこんな感じです。

作ったのはテンセントAIラボのShadowCさんです。

私は現在、Tencent AI Lab のビジュアル コンピューティング センターの研究員です。私は修士号と博士号を取得しました。2018 年と 2021 年にそれぞれChi-Man Pun博士の監督のもと、マカオ大学コンピューター情報科学学部で学位を取得しました。私は西甸大学でコンピュータ サイエンスの学士号を取得しました。現在、AIGC 関連技術を使用して、画像/ビデオの生成、翻訳、編集 (特に ACG 分野で!!! )を行う新しいアプリケーションの設計に取り組んでいます。vinthony (ShadowC)

SadTalkerの使い方は入り口を除けば超簡単です。

用意するのは口パクさせたい人物画像が一枚、それにトークを収録した音声ファイルがあれば大丈夫です。

私が使う音声合成ツールはVOICEPEAKですが、なければ別ソフトでもOKです。

早速作ってみましょう。

無料でトーキングフォトが作れる SadTalker の使い方

SadTalkerを使うことができるのは、WEBツールhugging faceです。

機械学習 アプリケーションを作成するためのツールを開発しているアメリカの企業が無料提供しています。

下のリンクからHuggingFaceのSadTakerにアクセスします。

SadTalker – a Hugging Face Space by vinthony

すると下のような画面が現れます。

英文ですが、構造は分かりやすく整理されています。

左上にある「ここに画像をドロップ」は文字通り、用意した静止画をアップロードします。

左下の「ここに音声をドロップ」からは、音声ファイルをアップロードできます。

アップロードすると音声のタイムラインに切り替わり、内容をモニターすることができます。

右側はコントロールパネルです。

Preprocess(前処理)は、上から画面のサイズ、生成モード、顔補正となっています。

cropは胸から上、免許証の写真の画角に生成するモードです。

resiseとfullは画面全部を動画にします。

やってみると分かりますが、AIは人間の全身を生成するのが苦手で、顔や手足などの品質に手抜きが起きがちです。

なので、失敗を避けるためcropを選ぶのが吉です。

「w/ Still Mode (fewer hand motion, works with preprocess `full`)」は手の動きが少ないモードです。

顔だけのモードの場合は、チェックを入れると顔の動きが小さくなります。

「w/ GFPGAN as Face enhancer」は画像の甘さを修正するモードです。あまり変化はみられませんでした。

設定は以上。「GENERATE」をクリックすると生成が始まります。

画面サイズや背景の切り取りや差し替えなど小回りは効きません。

数分程度すると画面右下に結果が表示されます。

マウスを画像の上に持っていくと再生バーが表示されます。

試写して問題なければ右クリックすることで、自分のPCに保存ができます。

喋りに関してはほとんど違和感を感じさせない出来になりました。

欠点は、瞬きしないこと。次回のバージョンを期待しましょう。

デメリット

背景を透過するためpng形式で保存した素材画像が、トーキングフォト動画では消されずに見えてしまう場合がありました。

今回使用した画像は、背景付きのAI生成画像です。

それをPhotoshopで背景を切り抜いてpng形式で保存したものを使いました。

ところが、SadTalkerを使ってトーキングフォトにすると、消去したはずの背景が再生されてしまいました。

これでは合成用に使えないため、再度Photoshopでグリーンバックを追加し、png形式で書き出した画像で生成し直しました。

背景をグリーンバックにしておくと、編集ソフトでなんとかクロマキー処理ができました。

うまく透過できない場合は手間がかかるので注意しましょう。

チュートリアル動画

まとめ

人物の静止画は、HuggingFaceのSadTakerを使うことで無料でトーキングフォトにすることができます。

SadTalker – a Hugging Face Space by vinthonyに入ったら、

  • 写真と音声をアップロード
  • 切り取るサイズを指定
  • GENERATEボタンを押す
  • 生成された動画は右クリックで保存

流れは以上です。

必要に応じて有料ソフトも検討しましょう。

Lumiere

SadTalkerで画像からリップシンク動画を作る方法