今日はね、動画編集者を永遠に苦しめてきた“字幕地獄”から抜け出す話をします
字幕作業、正直しんどくない?って話

YouTubeでもショートでも、
「字幕がある動画=ちゃんとしてる動画」
っていう空気、ありますよね。
でも現実はこうです。
- PremiereやCapCutで文字起こし → 行分けめちゃくちゃ
- 文節の途中で改行されるから、全部手で直す
- タイミングずれてて、また全部直す
- 他人が書き出した“完成済み動画”から字幕起こしたい時は、もうお手上げ
「AIで自動字幕って言うけどさ…
結局、最後は人が死ぬほど手直ししてるじゃん問題」があるんですよね。
そこで出てくるのが、
完全自律型AIエージェント「Manus(マヌス)」。
Manusって何者?ざっくりイメージ
ざっくり言うと、
「ffmpegとかWhisperとか、
本当はエンジニアがゴリゴリ組み合わせてやる処理を、
いい感じの“おつかいAI”が全部やってくれる」
みたいなやつです。
- 動画アップロードする
- プロンプト(命令文)を貼る
- 実行ボタンぽちっ
これだけで、
- 動画から音声を抜き出して
- Whisperで文字起こしして
- BudouXで見やすい位置に区切って
- タイムスタンプ付きで
- SRT字幕ファイルを作ってくれる
…という、編集者からしたら
「え、それアシスタントとして雇っていい?」レベルのことを
黙々とやってくれます。
実際の使い方フロー(初心者向けにざっくり)

① 字幕を作りたい動画を用意する
- 自分で撮ったトーク動画
- 友だちのVlog動画
- すでに書き出されている完成済み動画(ここがうれしい!)
なんでもOK。
ただし、できるだけ音声がクリアなものがベターです。
(BGM爆音・環境音まみれだと、さすがのAIもツラい)
② Manusに動画をアップロード
Manusの画面で:
- 新しいエージェント or タスクを作る
- 「ファイルをアップロード」から動画をポイッと放り込む
- 後で紹介する“字幕用プロンプト”を丸ごとコピペする
- 実行ボタンを押す

基本これだけ。
裏側では、
- ffmpegで音声を抜き出して
- Whisperで文字起こしして
- BudouX+動的計画法で字幕の行を最適化して
- SRTファイルとして書き出す
…という、聞くだけで眠くなる処理を全部やってくれます。


Manusの蓋を開けて、汚れ物(動画ファイル)と洗剤(テンプレのプロンプト)を入れてスイッチを押すだけ。出来上がった「subtitle.str」を編集ツールに読み込ませるとあら選択の出来上がり。というサルでもわかる流れです。
③ 出力されたSRTファイルをダウンロード
処理が終わると、Manusから
subtitle.srtみたいなファイルが手に入ります。
これが 字幕の台本&タイミングが全部入ったファイル です。
中身を開くとこんな感じ(ざっくりイメージ):
1
00:00:01,000 --> 00:00:02,500
今日はこちらのガジェットを
2
00:00:02,500 --> 00:00:04,000
開封していきたいと思います
数字+時間+テキストのシンプル構造。
編集ソフトはこれを読み取って、タイミングぴったりに字幕を出してくれます。
④ DaVinciResolve、Premiere / CapCutにインポートする

DaVinciResolve、Premiere Proの場合
- プロジェクトを開く
- メニューから
「ファイル」→「読み込み」→ SRTファイル選択 - タイムラインに自動で字幕トラックが乗る
- 字幕スタイル(フォント・色・縁取り・位置など)を調整する


CapCutの場合(PC版)
- プロジェクトを作成
- タイムラインに動画を置く
- 字幕のインポート機能からSRTを読み込む
- 自動でタイムラインに字幕クリップが並ぶので、デザインだけ整える
そう、Manusを使うと…
- 編集ソフトで「文字起こし」する必要がない
- 膨大な手打ち修正をしなくていい
- 確認と微調整だけに集中できる
っていう状態になります。
これはマジで一回やると戻れないやつ。
「どんな動画で特に効くの?」具体例
例1:しゃべり倒すレビュー動画
自撮りでこんな感じのやつ:
「はいどーも、○○です。
今日はね、ずっと気になってたこのキーボードを
開封していこうと思うんですけど…」
こういうしゃべりがほぼ全部コンテンツな動画は、
Manusの字幕がめちゃくちゃ刺さります。
- テロップがあるだけで離脱率が下がる
- 音なし視聴の人にも届く
- 再生されるたびに、過去の自分の労力に感謝できる
例2:セミナー・講座系の長尺動画
- 60分のオンライン講座
- 勉強会のアーカイブ
- Zoomの録画
これの文字起こしと字幕を手でやるのは、
正直もう修行の域です。
Manusなら、
- 1時間の動画でも、自動で全部文字起こし
- 文節ごとにいい感じで区切り
- SRTをそのままYouTubeにアップすれば、
視聴者は自分の好きな言語で自動翻訳もできる
「アーカイブ動画の価値」を一気に底上げできます。
例3:ショート動画の量産
ショートって、
1本あたりの長さは短いけど、量で殴る世界ですよね。
- 30秒×20本作る
- それぞれに字幕を全部手打ちする
…こういうの、心折れません?
Manusで元動画からまとめてSRTを作っておけば、
- 各クリップの必要な部分だけタイムラインに置く
- SRTを読み込んで、位置を合わせる
という流れで、字幕付きショートを量産できます。
引用プロンプトをチェックしてみる
さて、本題の引用プロンプト。
構成はざっくりこんな感じ。
- 処理の流れが明確(STEP1〜5)
- 音声抽出 → 文字起こし → 整形 → SRT という王道パイプライン
- BudouXや動的計画法まで指定
そのままManusのプロンプトに貼り付けて動画をアップロードするだけで使える想定です。
## 指示
あなたは動画編集者をサポートするAIエージェントです。
これから、日本語の動画に対して字幕用のSRTファイルを作成します。
添付の動画ファイルに対して、下記の「処理手順」に従って順番に処理を実行し、
最終的に SRT 形式の字幕ファイルを UTF-8 で出力してください。
各ステップの中間結果は temp.json に保存しながら進めてください。
temp.json には少なくとも以下の情報を持つ配列を格納してください:
- 元の文字起こし結果(text, start, end)
- 整形後の字幕行ごとの情報(id, text, start, end)
## 処理手順
### STEP1:音声抽出
・添付動画を受け取ったら、ffmpeg を使って音声ファイル(wav形式・16kHz・モノラル)を取得する。
・後段ではこの音声ファイルを使って日本語音声の文字起こし(ASR)の処理を行う。
・音声が取得できたかを確認し、取得できない場合はエラー内容を報告して処理を中断する。
### STEP2:音声文字起こし
・取得した音声ファイル(wav形式)をもとに Whisper で音声文字起こしをする。
・日本語として認識するモードを使用し、可能であれば高精度モデル(例:large)を使う。
・文字単位、または単語・トークン単位のタイムスタンプ付きで取得すること。
・取得したテキスト情報(text, start, end の配列)は temp.json に "raw_transcript" として格納すること。
### STEP3:テキストの分割整形
・文字起こししたテキスト全体に対して BudouX を使って、日本語として視覚的に読みやすい位置でトークンを作成する。
・このトークン列に対して動的計画法を使って字幕の表示最適化を行う。
- 1字幕は1行とし、1テロップあたりの文字数は目安として10〜15文字程度とする。
- 助詞や助動詞で極端に分断しないよう、意味のかたまりを優先する。
- 無音区間や「あー」「えー」などの明らかな言いよどみは、可能な範囲でまとめたり省略してもよい。
・文字起こし時に取得したタイムスタンプ情報を使って、各字幕の [start, end] のタイミングを実際の時間情報をもとにセットする。
・整形後の字幕行ごとのデータ(id, text, start, end)は temp.json に "subtitles" として格納する。
### STEP4:セルフレビュー
作成した字幕テロップの整形データを見てセルフレビューをしてください。
下記の項目でチェックし、必要であれば自動で微調整を行ってください。
・意味的に崩れていないか?
- 日本語として読んだときに、明らかに中途半端な位置で字幕切り替えが発生していないかを確認する。
・文字数は適切か?
- 1行あたり10〜15文字程度の分量になっているかを確認する。
- 極端に短い行や極端に長い行は、前後と結合・分割して調整する。
・タイムスタンプは維持できているか?
- 元の文字起こしデータのタイムスタンプから大きくずれていないかを確認する。
- 字幕の表示時間が短すぎて読めない場合は、可能な範囲で表示時間を伸ばす。
### STEP5:字幕ファイル(SRT)作成
・整形後の字幕データをもとに、標準的な SRT 形式で成果物として出力してください。
・SRT は UTF-8 でエンコードされていること。
・番号は 1 から連番で付与し、
1) 通し番号
2) 「hh:mm:ss,mmm --> hh:mm:ss,mmm」の形式のタイムコード
3) 字幕テキスト
の順で出力すること。
## 注意点
・各ステップで処理が正しく進んでいるか必ずセルフチェックを行うこと。
・特に字幕整形処理では、日本語として意味的に不自然な区切りになっていないか、視認性を下げていないかを都度確認すること。
・エラーが発生した場合は、どのステップで何が原因かを簡潔に報告すること。
丸コピーOKです。
一回の生成にかかるコストは分量によりますが、30秒程度の動画で233クレジットかかりました。

毎日300クレジット付与されるので無料版なら一日一回分は無料で使えそうです。それ以上使いたい人は費用はベーシックの月払いで19ドル(3,000円程度)検討してみてはいかがでしょうか。
Manus字幕ワークフローのまとめ
- Premiere / CapCut の「文字起こし」は便利だけど、
改行&タイミングの手直しに時間を取られがち - 他人が書き出した完成済み動画から字幕を作るのは、
そもそもツール側が想定してないから、かなりしんどい - Manus なら、動画を渡してプロンプト貼るだけで
音声抽出 → 文字起こし → 行分け最適化 → SRT 出力まで一気通貫 - あとは編集ソフトに SRT を読み込んで、
デザインと微調整だけに集中できる
「AI詳しくないけどテロップは爆速で終わらせたい」
っていう、ちょっとワガママな編集者ほど刺さるワークフローです。
まとめ
編集ツールにSRTファイルを読み込んで、タイムラインにドラッグアンドドロップするだけ。あと自分がやることは内容の確認と編集点あわせだけ。
これも単純作業の中に入るんだけどそれまでの作業が大幅に省かれているのでかなり楽です。
こんな感じで、「Manus=字幕専用の超優秀アシスタント」として
ガンガンこき使ってあげてください。
そのうち「昔は字幕、全部手で打ってたんだよね〜」って
若いクリエイターにドン引きされる未来、普通にありそうです。











こんにちは、フルタニです。放送局で番組作りをしてました。 AI「 Manus 」で字幕作業を超自動化する方法を書きます。