動画制作で手間のかかる作業の一つがナレーション入れです。
コメントを書く手間、読み手を探して読み上げてもらう手間、修正の手間・・・人に頼むと時間もコストも幾何級数的にかかります。
なんとか効率化したいとお悩みを解決してくれるツールが注目されています。
この動画は「AI」で作りました😌
— Manabu (@manabubannai) November 29, 2023
・声の自動生成 : @elevenlabsio
・動画の自動生成 : @HeyGen_Official
すこし不自然ですが、徐々に改善。来週からマナブAIとしてYouTube復帰します pic.twitter.com/bj29mOGHOk
まなぶさんも絶賛。日本語音声にも対応した音声 読み上げサービス ElevenLabs(イレブンラボ) を紹介します。
ElevenLabs(イレブンラボ)とは
ElevenLabsは元Googleの機械学習エンジニアPiotr Dabkowski氏らによって設立されました。
ElevenLabsは、AIに人物の声を学習させることで、よりリアルな音声を生成するサービスです。
人間が読み上げるようなリアルに近い音声が、自分のパソコンで生成できます。
AI narrates The Great Gatsby.
— ElevenLabs (@elevenlabsio) January 29, 2023
Listen to a fragment from the classic by F. Scott Fitzgerald. Narrated by a fully AI-generated voice. No corrections were made. pic.twitter.com/vQdorBjQK6
HeyGenだけだと日本語の読み間違いなど多いので、 ①音声はElevenLabを使って生成②HeyGenに読み込ませてアバター生成 この流れがよさそうですね
このツールを使って続々と有名人がヘイトスピーチや、絶対に話さないような内容の話をする音声クリップが投稿されているのが気になる。
ElevenLabs(イレブンラボ)の公式サイトにアクセスします。
英文のサイトなのでわからないところは適宜Google翻訳などで確認してください。
アクセスするとお試しができるデモ枷面が開くので体験してみましょう。
日本語を読み上げてほしい場合は、上記タグの中にある[Japanese]というタグをクリックすると、例文の英語が日本語表記になります。
すると自動的にテキストボックスにその例文が設定され、人工音声化が始まります。
しばらくすると処理が完了するので、左下にある丸印をクリックします。
すると音声が再生されます。
読み間違えた部分は、テキストボックス上からひらがななどに訂正して、再生し直します。
読み手を変更するには、人名を変更することで男性の声を女性に変更できます。
アカウントの登録方法
アカウントを作るには、画面を下にスクロールしたところにある「Get Starded Free」ボタンをクリックします。
サインアップページが開きます。
サインアップには、メールアドレスとGoogleアカウントが利用できます。
サインアップはクリックするだけ済むGoogleアカウントが簡単です。
コントロールパネルが現れたらアカウント登録は完了です。
無料版として使えるようになりました。さっそく音声を生成してみましょう。
音声合成をする
まずは、テキストから人工音声を作って見ましょう。
コントロールパネルは英語表記ですが操作は単純です。
テキストから人工音声をつくる機能は目新しいものではありません。
[Speach Synthesis]の[Settings]から[Text to Speach]をクリックします。次に[Settings][Rachel]のプルダウンを開いて、文章を読み上げてくれるキャラクターを選択します。
個人名の横にには声色の特徴がタグになっています。
日本語の音声を読み上げるには[Eleven Multilungual v2]を必ず選択します。
人物を設定したら読み上げるテキストを[Text]欄に入力します。
テキストを 入力したら ジェネレートボタンをクリックします。
生成処理が完了すると音声が自動的に再生されます。
生成した音声は、音声再生パネルの右にある[ダウンロード]アイコンをクリックすると即ダウンロードされます。
音声読み上げツール「Voice Peak」のようにイントネーションやピッチコントロールといった機能はないので、修正が必要な場合はテキストを書き換えるしかないのが玉に瑕です。
自分の声を人工音声化するには
さて、テキストを読み上げるだけならほかにも山ほど優秀な読み上げツールがあります。
ではなぜわざわざElevenLabsに注目が集まるのでしょうか。
その理由は、人物の声のクローンが簡単に作れることです。
例えば自分の声をElevenLabsに学習させると、自分の声に似たモデルが作れます。
学習させた自分の声はに有力下テキスト
このことを可能にしてくれるのが有償のサービス[インスタントボイスクローニング]です。
この機能はYouTubeなどの音声を取り込み学習することで、音声からその音声の複製を作成することができる機能です。
自分の声を読み込ませる手順
日本人の声をElevenLabsに追加するには[Add Voice]というボタンをクリックします。
するとこのような画面に移動します。
画面の中にあるプラスのマークが書かれているブロックを クリックします。
[Type of voice to create]という画面が表示されるので、ここから音声のタイプを選択します。今回はYouTubeの音声から人物の音声を複製します。
二項目目の[Instant VoiceCloneing]を選択します。
この機能は無料版では鍵がかかっているため利用できません。
利用するには有料プランを利用する必要があります。
有料プランに切り替えたらインスタント ボイスクローニングのボタンが選択できるようになります。
まずは作成するボイスの名前を入力します。
キャラクターの愛称などを記入します。
次に音声ファイルをアップロードします。
YouTubeから直接音声を取り込む機能は持っていません。なので、事前に編集ソフトから音声部分だけをmp3形式で書き出して保存しておきましょう。AIが人物の音声を学習するためにはある程度まとまった量の素材が必要です。作成してみて違和感を感じたら素材の量を調整し直すなどしてみましょう。
音声をアップロードしたら説明文を日本語で入力します。
次に、ボイスクローンに関する同意事項およびこのサイトの利用規約やプライバシーポリシーについての確認を行います。
最後に画面右下の[Add Voice]ボタンをクリックします。
これでアップロードした音声の生成処理が開始されます。
処理が完了すると[VoiceLab]の画面が現れます。
生成された音声は[Use]を押すことで画面がElevenLabsに切り替わります。
これで作成した音声をElevenLabsで利用することができるようになりました。
[Text]欄に読み上げさせたい文章を日本語で入力して[Generate]をクリックします。しばらくすると画面下に生成された音声が表示されます。
左の三角マークをクリックして視聴してOKなら、画面右のダウンロードアイコンからファイルのダウンロードができます。
[Voice Design] や[Voice Library]はElevenLabs に同梱された音声編集に使われる機能のようです。有料プランの登録方法
Subscrive と書かれている部分をクリックすると有料プランの登録画面に飛びます。
インスタントボイスクローニングは スタータープランから利用できるので今回 はこのプランにしておきます
サブスクライブと書かれたボタンを クリックします。
そうするとクレジット カードの入力画面が表示されるので必要 項目を入力して有料プランに切り替えます
有料プランに切り替えたらインスタント ボイスクローニングのボタンが選択できる ようになるので選択します。
各プランのサービス
プランを翻訳しました。
無料 | スタータープラン | クリエイタープラン |
oドル | 1ドル/月 | 11ドル/月 |
音声合成 – 商用ライセンスなし | すべてが無料 | スターターのすべて |
月間10,000文字 | 月間 30,000 文字 | 1 か月あたり合計 100,000 文字が含まれます (テキスト読み上げを使用して生成された音声は約 2 時間) |
カスタムボイスを3つまで作成可能 | 最大 10 個のカスタムボイスを作成 | 最大 30 個のカスタムボイスを作成 |
Voice Design を使用してランダムな音声を作成する | 商用ライセンスが含まれています | プロジェクトへのアクセス – 当社の新しい長文音声合成エディター |
音声ライブラリの共有音声にアクセスする | インスタント音声クローン作成へのアクセス | あなた自身の声のプロフェッショナルな音声クローン (PVC) |
29 の言語で説得力のあるスピーチを生成 | 追加の使用量ベースの文字は 1000 文字あたり 0.30 ドルです | |
最先端の吹き替えシステムを使用して、コンテンツを 57 言語から 29 言語に 1 分あたり 2000 文字で自動的に吹き替えます。 | API経由で192kbpsオーディオ出力 | |
APIアクセス | ||
高品質の 128kbps オーディオ出力 | ||
elevenlabs.io への帰属が必要です。 |
一分間のニュース原稿を読むときの文字数は300字が目安です。なので10,000文字はおよそ30分相当にあたります。
商用利用とは作成した動画を商品として第三者に売買することで収益を上げることを言います。YouTube等の投稿動画は販売目的で作成したものではないため、広告等で収益があっても商用に当たらないといわれています。(CapCutにおける商用の定義解釈による)
その他の音声合成サービス
音声合成の世界がこの1~2年で大きく発展を遂げています。無料で利用できるサービスも続々登場しているので聴き比べて選びましょう。
Text-to-Speech AI
Google の最先端 AI テクノロジーを活用したビス。最初の 100 万文字は、毎月無料。
Text-to-Speech AI: 自然な音声合成 | Google Cloud
テキスト 音声変換
英国のNarakeet社による日本語をはじめとする多くの言語でAI音声合成を行う音声読み上げサイト。登録不要。無料で日本語の音声合成が試せる。
ReadSpeaker
HOYA株式会社/リードスピーカー・ジャパン株式会社が提供する法人向けサービス。
まとめ
すでにテレビのニュース動画などで実用化されているように、人工音声は第三者視点のナレーションなどに使えそうですね。
様々な理由で自分の声が使えない人や使いたくない人にも便利な技術です。
自撮りしたVLOG的な動画も、これでナレーションを入れると演出の幅が広がるように思います。
こんにちは、フルタニです。放送局で番組作りをしてました。 ElevenLabs を書きます。