声優ゲットだぜ! 合成音声AIツール AivisSpeech の使い方

こんにちは、フルタニです。放送局で番組作りをしてました。音楽生成AI を書きます。

声優様に小説を読んでもらう
ラノベの文字をAIで文字起こしして楽しむ

手軽に高品質な声で読み上げてくれる合成音声AIツールを探している人いませんか。

実在の人物と見分けがつかないほど滑らかなしゃべりを実現してくれるサービスが登場しました。それがAivisSpeechです。

AivisSpeechは、日本で開発された高性能なAI音声合成ツールで、人間の声と区別できない自然な音声を生成できます。

このブログでは、初心者でも簡単に始められるAivisSpeechの基本的な使い方を解説します。

Contents

合成音声AIツールAivisSpeechの使い方【初心者向け】
追加キャラクターは音声モデル共有サイトから無料ダウンロード
チュートリアル動画
おわりに

合成音声AIツールAivisSpeechの使い方【初心者向け】

先日こんな動画を作りました。

この動画で使ったのが「AivisSpeech」です。

AivisSpeechとは

人間の声に近い自然な読み上げが特徴で、文ごとに話者スタイル・速度・音量・無音区間・アクセントなどを調整可能。

Windows と Mac の両方に対応。クレジット表記も不要で自由な利用が可能。個人利用から商用利用まで、完全無料。初期費用も月額料金も不要で、すぐに音声制作を始められるという、神サービスです。

メリット

高品質な音声合成
人間の声と区別がつかないほど自然で感情表現豊かな音声を生成できるため、動画ナレーションやボイスドラマに最適です。
無料で利用可能
商用利用可能なライセンスを含むモデルがあり、追加費用なしで使えるのが魅力です。
※公式ページでは「将来的に有料プランを導入する可能性はありますが、その場合でも追加機能のみが対象となります。」と説明されています。
業務効率化
録音データの文字起こし機能やカスタムボイス生成が可能で、時間を大幅に削減できます。

デメリット

ローカル環境が必要
Windows/MacのPCにソフトをインストールする必要があるため、スマートフォンでは利用できません。
音声モデルの制限
無料版で利用できる音声モデルは一人です。AivisHubを通じて、様々な音声モデルを無料で入手できます。キャラクターの数が少ない点がものたりないです。
操作に慣れが必要
イントネーションやアクセント、速度や喜怒哀楽などを編集することができますが、機能をフル活用するためには、ある程度のソフトウェア操作スキルが求められます。

インストール

公式サイトからダウンロード
AivisSpeechの公式ページ(Aivis Project | AivisSpeech でかんたんに感情豊かな音声合成、使ってみませんか？)から対応するWindowsまたはMac版をダウンロードします。

インストール
ダウンロードしたインストーラーを起動し、画面の指示に従ってインストールを完了させます。

インストール時に「Windows によって PC が保護されました」「開発元が検証できないため開けません」と表示されます。
※公式ページでは「AivisSpeech は安全なソフトウェアですので、「詳細情報」→「実行」（Windows）、「キャンセル」→「システム環境設定」→「セキュリティとプライバシー」→「このまま開く」（Mac）をクリックして、インストールを進めてください。」としています。

自分専用の環境であればユーザーはデフォルトでＯＫ。

公式ページでは、AivisSpeechのほかに、ユーザーが制作したモデルを無料でダウンロードできる音声合成モデル共有プラットフォーム「AivisHub」や、かんたんな操作で高品質な音声合成モデルを制作できる無料ツール「AivisBuilder」（現在開発中）、AI 音声合成モデルファイル (AIVM / AIVMX) を、簡単に制作・編集できる「AIVM Generator」、従量課金制の HTTP API サービスなども利用できます。

プロジェクトの作成

AivisSpeechを起動
起動後、「新規プロジェクト作成」ボタンをクリックします。
※初回起動のみ、AivisSpeech は必要なモデルデータをダウンロードするため、起動の完了まで数分程度かかります。

初回起動時のみライセンス、プライバシーポリシーの確認があります。

ホーム画面はいたってシンプルです。

あとは、枠の中にテキストを打ち込むだけ。シナリオ形式でまとめたテキストもコピペするだけでキャラクターごとにセリフを振り分けてくれます。

追加キャラクターは音声モデル共有サイトから無料ダウンロード

音声モデルの選択
初期設定ではデフォルトのAnneli（ノーマル）のみが登録されています。追加キャラクターはAivisHub (β) – AI 音声合成モデル共有サイトから選べます。

AivisHub (β) – AI 音声合成モデル共有サイト

好みのキャラクターを.aivmxファイルでダウンロードしたら、[設定][音声合成モデルの管理]から管理画面に進み、右上にある[インストール／更新]からキャラクターを追加できます。話者を変更するには、モデルをデフォルトで選んだ上、アプリを再起動する必要があります。キャラクターの切り替えは[設定][話者リスト]から話者の並びを替えることで反映されます。

テキストを入力して音声を生成

画面右のプリセットからプリセットボイスを選び、音声スタイルを決定します。

テキスト入力エリア
合成したい文章を入力します。コピペもＯＫ。改行があると複数段に分けられます。

再生ボタンをクリック
入力したテキストがリアルタイムで音声に変換されます。

画面左上、左から4つ目のアイコンをクリックすると連続再生が始まります。

音声のエクスポート

音声の確認
再生して内容に問題がないか確認します。

保存
画面右上の「選択音声を書き出し」ボタンをクリックして、保存先を指定するとWAV形式で音声を保存できます。

便利な機能

カスタム音声の作成
AivisBuilderを利用すれば、自分の声を音声モデルに追加することも可能です。
高品質な音声合成
最新技術であるStyle-Bert-VITS2を活用して、プロフェッショナルな音声制作が可能です。

運用の知恵

「オプション」機能にある「エンジンモード」が初期設定だと「CPU」が選択されています。パソコンにこのようなグラフィックボードが搭載されてない場合に「GPU」を選択すると声の生成がめちゃめちゃ遅くなる可能性が高いので注意。逆にグラボが搭載されている場合は「GPU」を選択すると声の生成が速くなります。

「保存」の項目にある「書き出し先を固定」と「上書き防止」を有効にしておくとけっこう便利です。保存先をあらかじめ指定しておくと音声を保存するときにいちいち保存先を指定しなくてもよくなります。「上書き防止」を有効にしておくと、直しが生じた時、直し前の音声ファイルが別々に保存されるので修正の手間がなくなります。

AivisSpeechではいろんなショートカットキーを設定することができます。「デフォルトに戻す」「再生」「音声書き出し」はショートカットキーに登録しておくと便利です。

AivisSpeechはテキストの内容を解析できる能力があるため、喜怒哀楽がわかりやすいセリフにしたり、文章の中に「？！ … ・・・」のような記号を使うとAivisSpeechが読み取って感情表現を変えてくれます。

AivisSpeechは他の読み上げソフトのように「抑揚」の調整機能はありません。声の高さをいじると音質が劣化するという弱点も抱えているので注意しましょう。

「スタイルの強さ」を使うと喋りかたの特徴の強弱を調整できます。しかし、「ノーマル」モードでは自由に調整することができない仕様になっています。欠点というよりもノーマルはいわばお任せモードのようなものだからです。AivisSpeechが文脈を読み取り感情表現を自然な感じに調整してくれます。

調整のパラメータはマウスホイールで調整しますが、ctrl（command）キーを押しながらホイールを動かすことで細かな調整が可能です。

「読みの修正」アクセントのテキストに合わせて左クリックすると読み方を修正することができます。

思いどおりの発音にならない。間違った読み方をする。など、いちいち修正するのが手間という場合は、「読み方＆アクセント辞書」で単語と読み、アクセント調整の優先度を設定して登録できます。

気がつきにくいですが、AivisSpeechは途中から再生することができます。カーソルをアクセント区間の上のほうで左クリックしてから再生します。すると途中から再生することができます、

とはいえ、読みの補正はアクセントの調整ツールしかないため、VOICEVOXほど調整は楽ではありません。

AivisSpeechは音声合成モデルの追加ができます。モデルは「音声合成モデルの管理」をクリックして、右上にある「音声合成モデルを探す」から共有プラットフォーム「AivisHub」が表示されるので、そこからダウンロードしたり、BOOTHなど他のサイトからダウンロードできます。

「ファイルからインストール」の「AIVMXファイルを選択」をクリックして、ダウンロードした音声モデルを選択し、「インストール/更新」をクリックすると追加登録できます。

（YMM4）でAivisSpeechを使う場合、基本なにもすることはありません。AivisSpeechをインストールした状態で YMM4を最新版に更新するだけです。 YMM4側で勝手にAivisSpeechを認識して、音声のリストにモデルが入ってるはずです。

利用規約

声合成モデルの利用規約は三つあります。

「ACML」は AivisSpeechの標準的な規約みたいなもので「禁止事項を守れば商用利用も複製も改変もOKですよ」っていう他と比べてもけっこう緩めの規約です。
「ACML-NC」っていうのは ACMLに「商用利用の禁止」が追加されただけとなっているものです。
「パブリックドメイン」はその名のとおり権利が放棄されて「自由に使っていいよ」という内容です。

最初のうちはHubからダウンロードして使うのがおすすめです。

AivisSpeech自体はクレジット表記が任意ですが外部で提供されている音源はクレジット表記が必要です。