人物写真やイラスト画像がしゃべるトーキングフォト。
リップシンク動画とも呼ばれ、自分の分身であるアバターづくりには欠かせません。
そんな、自分好みのアバターを作ってみたくありませんか。
AIの力を借り、人物画像と音声を合成してアニメーションさせる技術をフェイシャルアニメーションといいます。
代表的なのが、NHKで紹介された美空ひばりや荒井由実のデジタルヒューマンですね。
しかし、人の顔の合成に加え、音声合成、音に合わせて映像の同期と、デジタルヒューマンの作成には高度な技術が必要です。
この作業が、画像生成AIStable DiffusionなどのAIツールの登場でガクンと身近な存在になりました。
一枚の写真やイラストさえあれば、写された人が生きているようなアバターに変えることができAI音声変換ツールを紹介します。
AIが顔写真や生成画像をしゃべらせるD-ID Creative Reality Studio
今回ご紹介するのは、AI音声変換ツールD-ID Creative Reality Studio。
静止画から動画を合成するトーキングフォトがつくれる有料のプラットフォームです。
作ったのはイスラエルのAI関連企業Studio D-ID社です。
「AIツールを使いこなすのは、それなりの知識と技術が必要なので無理」と思う人がいるかもしれませんが、大丈夫。ワンタッチで操作できます。
Talking Heads Videos | Create E-learning video | D-ID
Creative Reality Studioは、静止画を、音声に合わせてリップシンクさせることで、様々な個性を持ったフェイシャルアニメーションを作るツールです。
画像生成AI「Stable Diffusion」と連携しているので、架空の人物やキャラクターを作り出すこともできます。
フェイシャルアニメーション
人の顔を撮影した写真がサーバに送られ、戻ってくると、その人物の顔が軽くうなずいたり、瞬きをしながら動くようになるという仕組み。
使えるのは写真だけではありません。
AIが生成した人物画像や、イラストもOKです。
音声はマイクで直接収録した自分の声が利用できます。また、テキストから音声を合成することも、別ソフトで作った音声ファイルを読み込ませることもできます。
Creative Reality Studioには英語や日本語など119言語に対応した音声合成システムも内蔵されているので、海外に向けたコンテンツ制作も自由分可能です。
- 生成動画尺は最大5分に制限されます。API を使用する場合、ビデオの長さは最大 10 分です。
- アップロード可能な画像サイズは 4.5 MB に制限されます。API使用時は15MBまでです。
- アップロード可能なフォーマットは、 JPEG、JPG、PNGの三種類です。
- ビデオ出力はmp4で、解像度は常に最大 1280 × 1280 ピクセルです。
D-ID Creative Realityの使い方
はじめての人は無料のデモサイトでCreative Reality Studioを体験することができます。
「Create Video」をクリックするとデモサイトが開きます。
デモサイトでは音声を使って画面の人物にフェイシャルアニメーションを施すことができます。
本格的に使いこなすにはサインアップして、無料で使える14日間のトライアルコースに入りましょう。
サインアップの方法
サインアップするためのボタンは、画面左下のGUESTの横にあるボタンから[Signup]をクリックするか
上記のようなモデルのモニター画面の右下の[Signup]をクリックします。
すると次のようなサインアップ画面が開きます。
gmailもしくはinstagramとの連携、emailでの登録の三通りの方法からサインアップします。
登録するとメールアドレス宛に結果が送られてきます。
このような連絡が届いたらトライアル版が使えるようになります。
実際にいくつか変換してみましょう。
トライアル画面
トライアル画面の左サイドバーにあるCreative Videoをクリックして編集画面の起動します。
編集画面は大きく三つに分かれます。真ん中の上半分がモニター、下半分がキャラクター素材です。
画面中央はキャラクター設定画面です。雛形として用意されたキャラクターのほか、最新バージョンではAIによる画像生成もサポートされました。
アニメーション化したアバターの試写やダウンロードができます。
雛形として用意されたキャラクターの場合は、背景の色や画角の調節もできます。
ーーーーーーーーーーーーー
音声編集
画面右は音声編集枠です。上のタブで生音の収録、テキストから音声合成、音声ファイルのアップロードなどに切り替えることができます。
素材を決めたら「Language」を選択します。
テキストをもとに音声合成する場合、同時に「Language」を日本語にしないとエラーメッセージが出ます。
「Voices」はキャラクター設定です。日本語の場合男性および女性キャラクターが計6人用意されています。
ーーーーーーーーーー
フェイシャルアニメーション
音声およびキャラクターの設定が終わったら画面右上の「GENERATE VIDEO」をクリックします。
注意したいのは、動画の書き出しに費用が発生することです。
費用といっても直接現金が必要になるわけではありません。
Creative Reality Studioでは作画の際発生する費用は「Credit」と呼ばれるポイントで支払います。
所有するcreditsは画面左下から確認できます。このcreditsは書き出すごとに減っていきます。
例えば下記の5秒の動画を一枚生成したところ1credits減りました。
creditsは生成される動画の尺=長さによって左右されます。
問題がなければ画面下の「SIGN UP」から書き出し・ダウンロードすれば終了です。
男性のイントネーションはやや機械っぽく聞こえますがビジネス用途であれば合格点です。
動画の素材として使う場合は背景を透過させて使う場合が多いので、このままでは使えません。
背景をグリーンなどにして書き出したものを編集ソフトのクロマキー処理などを使って切り抜く必要がありそうです。
音声編集
画面右は音声編集枠です。上のタブで生音の収録、テキストから音声合成、音声ファイルのアップロードなどに切り替えることができます。
素材を決めたら「Language」を選択します。
テキストをもとに音声合成する場合、同時に「Language」を日本語にしないとエラーメッセージが出ます。
「Voices」はキャラクター設定です。日本語の場合男性および女性キャラクターが計6人用意されています。
「Chat」とは雑談風の喋り方です。
人物画像を読み込ませる
新たに画像を読み込ませたい場合は[Choose a Presenter]をクリックして画像ファイルを選択します。
使う画像は写真もしくはAIが生成したリアル人物画像、正面を向いて口を閉じたものがベスト。イラストなど輪郭線がつながっていないものはうまくいきません。
右の枠から音声を入力・設定した後[Generate]をクリックすると処理が始まります。
生成された動画を試写します。
音声のスピードが変えられないのが少し残念ですが、AIデータをアップロードしただけなのにかなり自然に喋っていることがわかります。
動画mp4形式で書き出され、自動的にアーカイブ化されてリストに加わります。
再生するとわかるようにトライアル版は画面左下にウォーターマークが付けられます。
生成された画像はダウンロードやTwitterなどでシェアもできます。
撮影する写真には、真正面で適度な明るさがあり、額が隠れていないなどといった、いくつかの条件があります。その条件が満たされない場合は、うまく変換できないので、もう一度撮影しなおしましょう。
トライアルの利用条件
無料のトライアル版では条件があります。
- 14日間有効
- 動画生成は1日に5分まで
- クレジットは20付与される (15秒ごとに1クレジットが課金されます。使い切ると動画作成ができなくなります)
- 生成できる時間は30秒以内
- 動画にはD-IDのロゴが入る
以上、最大のデメリットは透かしロゴが入ること。なのでお試しに限定されます。必要に応じて有料プランを検討しましょう
有料プランにアップグレードすると条件の縛りがなくなります。
メリットは
- AIを運用するための知識や技術を知らなくても使える
- このシステムだけでキャラクター設定から書き出しまでワンストップで動画コンテンツ制作が可能
- コストや手間が大幅に削減できる
デメリット
- 画像サイズは640×640に固定されている
- 有料で利用方法によってそれなりのコストが発生する
- 費用がポイントとして換算されるためコスト感覚がわかりにくい
- 他のAI合成と比較すると、表情が大げさで不自然さを感じる
- 他のAI合成と比較すると音声合成の質がワンランク下がる
Proプランでは、1点生成するたびにポイントの残高が減っていく仕組みで、おそらく1分の生成につき3ポイントが減っていくようです
人物写真は大丈夫ですが、イラストタッチのAI生成画像や、コミックのキャラクターなどの場合は輪郭線が読み取れないからか、合成された画像に歪みが出る場合があります。二次元寄りのイラスト動かせないのが残念すぎる これできればかなり革命的なことなんだがなぁ
同梱された音声合成の仕上がりはいまいちです。使えないことはありませんが、質感は聞いたことがあるような機械音声です。
D-IDの技術はこれまでの技術とはリアルさ、自然さという点で抜きん出ていると思います。そのあたりの調整ができるようになれば、本物と見分けがつかないレベルの動画が作成できると期待します。
Creative Reality Studio の料金
販売形式 | Lite | Pro | Advanced | Enterprise |
ライセンス | 契約期間のみ | 契約期間のみ | 契約期間のみ | 応相談 |
その月に生成できる動画尺 | 月10分 | 月15分 | 月65分 | 応相談 |
生成できるプレゼンター(キャラ) | Standard Presenters only | Premium and Standard Presenters | Premium and Standard Presenters | Premium and Standard Presenters |
生成可能プレゼンター(キャラ)数 | 1ヶ月に100体のAIプレゼンターを生成可能 | 1ヶ月に200体のAIプレゼンターを生成可能 | 1ヶ月に1200体のAIプレゼンターを生成可能 | 無制限にAIプレゼンターを生成可能 |
収益化 | ✖️ | ○ | ○ | ○ |
価格 | 月額5.99ドル (約800円) | 月額49.99ドル(約7,000円) | 月額299.99ドル(約42,000円) | 応相談 |
チュートリアル動画
AI作画でも顔写真でも自由にしゃべり、歌わせられる動画技術を試してみた(CloseBox) | テクノエッジ TechnoEdge
まとめ
Creative Reality Studioは音声にあわせて静止画の人物写真やイラストをAIが解析して動画にしてくれます。
AIが生成した画像に、テキストから生成した音声を自動的に合成して自分好みのしゃべるアバターが作れると、動画編集の世界は大きく変わります。
- 顔出しなしの動画投稿がしたい
- 出演者にかかる人件費を削減したい
- 制作期間を短縮したい
などの効果を得ることができます。
気になる点を挙げるとしたら、進化したとはいえ、作り物であることは簡単にわかってしまうこと。
リアルな人物には置き換えが効かないというデメリットはありますが、
使いようによっては様々なシーンで活用が期待できるサービスです。
よくある質問
- キャラクターの背景を透過させるにはどうしたらいいですか
- Creative Reality Studioで書き出した動画は背景付きです。おまけにウォーターマークがついています。
元画像の背景をあらかじめ単色グリーンなどにしてCreative Reality Studioに読み込ませ、アニメーション化した動画素材を別途編集ソフト(PremiereProなど)に読み込ませ、『ビデオエフェクト』→『キーイング』→『Ultraキー』をクリックしたまま、緑背景素材の上で離して適用することで背景が透過します。
- YouTube は合成音声の収益化を認めていないと聞きましたが大丈夫ですか
- 音声合成ソフトの側で利用が許可されていれば大丈夫です。
有料で契約したVOICEPEAKは利用可能です。VOICEVOXを使った音声データはクレジットの記載をすれば商用利用でも使えます。ダメな例は、VOICEROIDの鷹の爪吉田君です。このキャラクターの利用は許可されていません。
- Creative Reality Studio以外にスマートフォンで使えるアプリはありますか
- 写真の人物に動きを与え、アバターとしてしゃべらせるアプリには
「PhotoSpeak」(350円)があります。
音声にあわせて写真の口元がしゃべっているようアニメーションするほか、眼鏡やヘアースタイルを変えたりするなどもできます。
こんにちは、フルタニです。放送局で番組作りをしてました。 Creative Reality Studio を書きます。