動画制作に欠かせないのが「文字起こし」。
インタビューや資料の整理、後の編集に向けた確認作業において、正確で素早い文字起こしは非常に役立ちます。
しかし、文字起こしには編集ソフトやウェブツールを使用することが多く、Vrewなどの無料ツールも一部有償化されるなど費用もかかっていました。
しかし朗報です、Geminiを活用すれば無料でスピーディーに対応できるようになりました。
この記事では、GoogleのAI技術「Gemini」を使った動画文字起こしの方法について、具体的に説明します。
Geminiとは?
GeminiはGoogleが開発したAI技術で、音声データの文字起こしや要約が可能です。特に「Gemini 1.5 Pro」は、無料で利用できるWebベースのプラットフォーム「Google AI Studio」を通じてアクセス可能です。文字起こしは、より高度な機能を持つ「Gemini 1.5 Pro」を使うことをお勧めします。
Geminiの機能
Geminiは、音声データの処理能力に加え、複数のデータ形式を扱う「マルチモーダルコンテンツ」の分析機能を持っています。これにより、YouTube動画や画像など、異なる形式のデータを同時に解析し、文字起こしが可能です。従来のように素材ごとに異なるツールを使用する手間がなくなり、スムーズな作業が実現します。
Geminiの利点
1. 高精度な文字起こし
GeminiのAI技術を活用することで、音声認識の精度が向上し、従来の手法よりも誤認識が大幅に減少します。
1時間の動画の文字起こしに必要なトークン数は約100万。Geminiでは200万トークンまで利用できるので、余裕で大丈夫です。(消費したトークンは事案ごとにリセットされます)Chat-GPT4やClaudeでは動画から直接文字起こしするのは困難なのでGeminiの優位性を感じます。
2. 情報の効率的な整理
重要な情報を自動で抽出・整理することができ、例えばインタビューの録音データを処理する際には、発言者ごとに発言内容を簡単にまとめることが可能です。これにより、作業効率が向上します。
動画の文字起こし手順
以下に、Gemini 1.5 Proを使って動画を文字起こしする具体的な手順を説明します。
初心者が挫折しやすいのが「Google AI Studio」へのアクセスです。手順については別記事で解説しました。
手順1: 動画の準備
まず、文字起こしを行いたい動画を用意します。動画ファイルを直接アップロードする方法と、リンクを指定する方法があります。リンクに使える動画はGoogleドライブに格納した動画一択なので注意してください。
フォーマットはMP4やMOVなど、一般的な形式が望ましいです。音質が良好であることも重要です。話者の声がはっきりと聞こえる環境で録音された動画は、文字起こしの精度が向上します。
手順2: Geminiへのアップロード
次に、「Google AI Studio」にアクセスし、「Gemini 1.5 Pro」を起動します。
画面下にある[Upload to Drive]を使って動画をアップロードします。
その後、プロンプト欄に「このファイルを文字起こししてほしい」と入力し、実行します。うまくいかない場合は、「一言一句文字起こしして」といったプロンプトを調整すると成功率が上がります。
すると動画のプレビュー画面とともに文字起こしされたテキストが表示されました。
手順3: 結果の確認と編集
表示されたテキストは必要に応じて編集が可能です。
これにより、業務の効率化が図れ、重要な情報を迅速に整理することができます。
YouTube動画の文字起こし
Geminiを使ってYouTube動画の文字起こしをしてみましょう。
YouTube動画を再生して、画面右に自動翻訳文を表示させます。
表示させた自動翻訳文をコピーしてgeminiに貼り付けます。すでに文字起こしが出来上がっていますが文章の表記に揺れがあったりします。geminiで「校正してください」と指示すればかなりの精度で文字起こし文が完成します。
YouTube動画のURLを直接プロンプト欄に貼り付けることはできますが、文字起こしはしてもらえませんでした。ただし、要約はしてくれるので、状況に応じて使い分けましょう。
文字起こしにあたりGemini 1.5 Proはトークンを消費します。Gemini 1.5 Pro を搭載した Gemini Advanced は、一時間の動画に対して最大 100 万トークン(1500 ページ相当)の情報を処理できます。文字数が多すぎると所持トークンをオーバーしてしまうことから文字起こしの中身が間引かれることがあるので留意しましょう。
Geminiの料金は、2024年2月時点で無料。Googleアカウントを持っている場合は、無料登録することで回数制限なしで自由に使えます。上位バージョンの「Gemini Advanced」にアップデートすると、月額2,900円で無料版よりも便利な機能を利用することが可能です。
Geminiは現時点で英語の動画に最適化されており、日本語の動画では精度が劣る場合があります。その場合は状況に応じたプロンプトの工夫で調整してください。
GeminiでYouTubeの内容を要約する機能がついたので、ちょっと試してみた|tomo
文字起こししたデータの活用法
文字起こししたデータをブログ記事などに流用する場合は、プロンプト欄に「ブログ記事にしてください」などと指示することで回答が得られます。
チュートリアル動画
まとめ
Geminiを使えば、無料で素早く正確な文字起こしが可能です。特に動画制作において、文字起こしを効率化することで、編集作業の質やスピードが向上します。初心者には少し難しく感じるかもしれませんが、一度試してみればその便利さを実感できるでしょう。動画制作の現場で活用して、業務効率の向上や新しいビジネスチャンスを見つけてください。
フルタ二 元放送局プロデューサー・動画制作者&ブロガー
ご訪問ありがとうございます! 当ブログの管理人で元放送局プロデューサー・動画制作者&ブロガーのフルタニです。
放送局の退職を機会にAdobeやDaVinci、WordPressを独学して個人事業主になりました。動画制作で人生が豊かに変わったことをみんなに知ってもらいたいと一念発起。動画制作を通じた社会貢献と地域支援を他がけています。
●WordPressブログアクセス月10万達成。
当ブログでは、DaVinch ResolveやFilmora、CapCutなどを使った動画の制作方法をかいせつしています。動画を作りたいけど操作が苦手な初心者さんの『困った!!』を解決しています。
こんにちは、フルタニです。放送局で番組作りをしてました。 Gemini を書きます。