一枚の人物画像からトーキングフォトが生成できる SadTalker の使い方

こんにちは、フルタニです。放送局で番組作りをしてました。 SadTalker を書きます。

最近の動画に目立つのが、イラストや人物生成AI画像がアバターとなって喋る演出です。

トーキングフォトとか、リップシンク動画とも呼ばれます。

実在の人物に頼ることなしに人が話しかけるような演出ができる点が人気の秘密です。

作り方はAIに人物画像を一枚読み込ませるだけ。

音声もとにAIが音声にあった口の形や顔の動きを動画に生成してくれます。

上記のような美少女が語りかけてくれる動画は訴求力が高いこともあり、様々な使い道がありそうです。

とはいえ、トーキングフォトとか、リップシンク動画の作り方に困っている人も多いはず。

そこで、無料で作れる方法をご紹介します。

用意するのは素材となる人物写真と音声ファイルだけ。興味のある人はチャレンジしてみてください。

Contents

画像からリップシンク動画を作る方法
無料でトーキングフォトが作れる SadTalker の使い方
- デメリット
チュートリアル動画
まとめ

画像からリップシンク動画を作る方法

結論から言うと、手っ取り早くトーキングフォトが作りたい人には有料サービスをお勧めします。

ツールはいくつかありますが、お金に余裕がある人は有料ツールCreative Reality Studioを選ぶのが一番楽です。

2025.10.07

Creative Reality Studioはサブスクではないので、都度課金されます。

いや、待ってください。だって俺金ないし。タイトルに無料と書いてあったから見にきたわけで。なんとかならないの。

お金のない人は少し手間がかかりますが、開発者向けのツールを使うことでトーキングフォトが作れます。

それが SadTalker 。

仕上がりはこんな感じです。

作ったのはテンセントAIラボのShadowCさんです。

私は現在、Tencent AI Lab のビジュアルコンピューティングセンターの研究員です。私は修士号と博士号を取得しました。2018 年と 2021 年にそれぞれChi-Man Pun博士の監督のもと、マカオ大学コンピューター情報科学学部で学位を取得しました。私は西甸大学でコンピュータサイエンスの学士号を取得しました。現在、AIGC 関連技術を使用して、画像/ビデオの生成、翻訳、編集 (特に ACG 分野で!!! )を行う新しいアプリケーションの設計に取り組んでいます。vinthony (ShadowC)

SadTalkerの使い方は入り口を除けば超簡単です。

用意するのは口パクさせたい人物画像が一枚、それにトークを収録した音声ファイルがあれば大丈夫です。

私が使う音声合成ツールはVOICEPEAKですが、なければ別ソフトでもOKです。