【神時短】完全自律AI「 Manus 」で字幕作業を超自動化する方法｜プロンプト全公開動画編集者向けガイド

こんにちは、フルタニです。放送局で番組作りをしてました。 AI「 Manus 」で字幕作業を超自動化する方法を書きます。

今日はね、動画編集者を永遠に苦しめてきた“字幕地獄”から抜け出す話をします

Contents

字幕作業、正直しんどくない？って話
Manusって何者？ざっくりイメージ
実際の使い方フロー（初心者向けにざっくり）
「どんな動画で特に効くの？」具体例
引用プロンプトをチェックしてみる
Manus字幕ワークフローのまとめ
まとめ

字幕作業、正直しんどくない？って話

YouTubeでもショートでも、
「字幕がある動画＝ちゃんとしてる動画」
っていう空気、ありますよね。

でも現実はこうです。

PremiereやCapCutで文字起こし → 行分けめちゃくちゃ
文節の途中で改行されるから、全部手で直す
タイミングずれてて、また全部直す
他人が書き出した“完成済み動画”から字幕起こしたい時は、もうお手上げ

「AIで自動字幕って言うけどさ…
結局、最後は人が死ぬほど手直ししてるじゃん問題」があるんですよね。

そこで出てくるのが、
完全自律型AIエージェント「Manus（マヌス）」。

Manusって何者？ざっくりイメージ

ざっくり言うと、

「ffmpegとかWhisperとか、
本当はエンジニアがゴリゴリ組み合わせてやる処理を、
いい感じの“おつかいAI”が全部やってくれる」

みたいなやつです。

動画アップロードする
プロンプト（命令文）を貼る
実行ボタンぽちっ

これだけで、

動画から音声を抜き出して
Whisperで文字起こしして
BudouXで見やすい位置に区切って
タイムスタンプ付きで
SRT字幕ファイルを作ってくれる

…という、編集者からしたら
「え、それアシスタントとして雇っていい？」レベルのことを
黙々とやってくれます。

実際の使い方フロー（初心者向けにざっくり）

① 字幕を作りたい動画を用意する

自分で撮ったトーク動画
友だちのVlog動画
すでに書き出されている完成済み動画（ここがうれしい！）

なんでもOK。
ただし、できるだけ音声がクリアなものがベターです。
（BGM爆音・環境音まみれだと、さすがのAIもツラい）

② Manusに動画をアップロード

Manusの画面で：

新しいエージェント or タスクを作る
「ファイルをアップロード」から動画をポイッと放り込む
後で紹介する“字幕用プロンプト”を丸ごとコピペする
実行ボタンを押す

基本これだけ。
裏側では、

ffmpegで音声を抜き出して
Whisperで文字起こしして
BudouX＋動的計画法で字幕の行を最適化して
SRTファイルとして書き出す

…という、聞くだけで眠くなる処理を全部やってくれます。

Manusの蓋を開けて、汚れ物（動画ファイル）と洗剤（テンプレのプロンプト）を入れてスイッチを押すだけ。出来上がった「subtitle.str」を編集ツールに読み込ませるとあら選択の出来上がり。というサルでもわかる流れです。

③ 出力されたSRTファイルをダウンロード

処理が終わると、Manusから

subtitle.srt みたいなファイルが手に入ります。

これが 字幕の台本＆タイミングが全部入ったファイル です。

中身を開くとこんな感じ（ざっくりイメージ）：

1
00:00:01,000 --> 00:00:02,500
今日はこちらのガジェットを

2
00:00:02,500 --> 00:00:04,000
開封していきたいと思います

数字＋時間＋テキストのシンプル構造。
編集ソフトはこれを読み取って、タイミングぴったりに字幕を出してくれます。

④ DaVinciResolve、Premiere / CapCutにインポートする

DaVinciResolve、Premiere Proの場合

プロジェクトを開く
メニューから
「ファイル」→「読み込み」→ SRTファイル選択
タイムラインに自動で字幕トラックが乗る
字幕スタイル（フォント・色・縁取り・位置など）を調整する

CapCutの場合（PC版）

プロジェクトを作成
タイムラインに動画を置く
字幕のインポート機能からSRTを読み込む
自動でタイムラインに字幕クリップが並ぶので、デザインだけ整える

そう、Manusを使うと…

編集ソフトで「文字起こし」する必要がない
膨大な手打ち修正をしなくていい
確認と微調整だけに集中できる

っていう状態になります。
これはマジで一回やると戻れないやつ。

「どんな動画で特に効くの？」具体例

例1：しゃべり倒すレビュー動画

自撮りでこんな感じのやつ：

「はいどーも、○○です。
今日はね、ずっと気になってたこのキーボードを
開封していこうと思うんですけど…」

こういうしゃべりがほぼ全部コンテンツな動画は、
Manusの字幕がめちゃくちゃ刺さります。

テロップがあるだけで離脱率が下がる
音なし視聴の人にも届く
再生されるたびに、過去の自分の労力に感謝できる

例2：セミナー・講座系の長尺動画

60分のオンライン講座
勉強会のアーカイブ
Zoomの録画

これの文字起こしと字幕を手でやるのは、
正直もう修行の域です。

Manusなら、

1時間の動画でも、自動で全部文字起こし
文節ごとにいい感じで区切り
SRTをそのままYouTubeにアップすれば、
視聴者は自分の好きな言語で自動翻訳もできる

「アーカイブ動画の価値」を一気に底上げできます。

例3：ショート動画の量産

ショートって、
1本あたりの長さは短いけど、量で殴る世界ですよね。

30秒×20本作る
それぞれに字幕を全部手打ちする

…こういうの、心折れません？

Manusで元動画からまとめてSRTを作っておけば、

各クリップの必要な部分だけタイムラインに置く
SRTを読み込んで、位置を合わせる

という流れで、字幕付きショートを量産できます。

引用プロンプトをチェックしてみる

さて、本題の引用プロンプト。
構成はざっくりこんな感じ。

処理の流れが明確（STEP1〜5）
音声抽出 → 文字起こし → 整形 → SRT という王道パイプライン
BudouXや動的計画法まで指定

そのままManusのプロンプトに貼り付けて動画をアップロードするだけで使える想定です。

完全自律型AIエージェント「Manus（マヌス）」

## 指示
あなたは動画編集者をサポートするAIエージェントです。
これから、日本語の動画に対して字幕用のSRTファイルを作成します。

添付の動画ファイルに対して、下記の「処理手順」に従って順番に処理を実行し、
最終的に SRT 形式の字幕ファイルを UTF-8 で出力してください。

各ステップの中間結果は temp.json に保存しながら進めてください。
temp.json には少なくとも以下の情報を持つ配列を格納してください：
- 元の文字起こし結果（text, start, end）
- 整形後の字幕行ごとの情報（id, text, start, end）

## 処理手順

### STEP1：音声抽出
・添付動画を受け取ったら、ffmpeg を使って音声ファイル（wav形式・16kHz・モノラル）を取得する。
・後段ではこの音声ファイルを使って日本語音声の文字起こし（ASR）の処理を行う。
・音声が取得できたかを確認し、取得できない場合はエラー内容を報告して処理を中断する。

### STEP2：音声文字起こし
・取得した音声ファイル（wav形式）をもとに Whisper で音声文字起こしをする。
・日本語として認識するモードを使用し、可能であれば高精度モデル（例：large）を使う。
・文字単位、または単語・トークン単位のタイムスタンプ付きで取得すること。
・取得したテキスト情報（text, start, end の配列）は temp.json に "raw_transcript" として格納すること。

### STEP3：テキストの分割整形
・文字起こししたテキスト全体に対して BudouX を使って、日本語として視覚的に読みやすい位置でトークンを作成する。
・このトークン列に対して動的計画法を使って字幕の表示最適化を行う。
    - 1字幕は1行とし、1テロップあたりの文字数は目安として10〜15文字程度とする。
    - 助詞や助動詞で極端に分断しないよう、意味のかたまりを優先する。
    - 無音区間や「あー」「えー」などの明らかな言いよどみは、可能な範囲でまとめたり省略してもよい。
・文字起こし時に取得したタイムスタンプ情報を使って、各字幕の [start, end] のタイミングを実際の時間情報をもとにセットする。
・整形後の字幕行ごとのデータ（id, text, start, end）は temp.json に "subtitles" として格納する。

### STEP4：セルフレビュー
作成した字幕テロップの整形データを見てセルフレビューをしてください。
下記の項目でチェックし、必要であれば自動で微調整を行ってください。

・意味的に崩れていないか？
　- 日本語として読んだときに、明らかに中途半端な位置で字幕切り替えが発生していないかを確認する。
・文字数は適切か？
　- 1行あたり10〜15文字程度の分量になっているかを確認する。
　- 極端に短い行や極端に長い行は、前後と結合・分割して調整する。
・タイムスタンプは維持できているか？
　- 元の文字起こしデータのタイムスタンプから大きくずれていないかを確認する。
　- 字幕の表示時間が短すぎて読めない場合は、可能な範囲で表示時間を伸ばす。

### STEP5：字幕ファイル（SRT）作成
・整形後の字幕データをもとに、標準的な SRT 形式で成果物として出力してください。
・SRT は UTF-8 でエンコードされていること。
・番号は 1 から連番で付与し、
    1) 通し番号
    2) 「hh:mm:ss,mmm --> hh:mm:ss,mmm」の形式のタイムコード
    3) 字幕テキスト
  の順で出力すること。

## 注意点
・各ステップで処理が正しく進んでいるか必ずセルフチェックを行うこと。
・特に字幕整形処理では、日本語として意味的に不自然な区切りになっていないか、視認性を下げていないかを都度確認すること。
・エラーが発生した場合は、どのステップで何が原因かを簡潔に報告すること。

丸コピーＯＫです。

一回の生成にかかるコストは分量によりますが、30秒程度の動画で233クレジットかかりました。