AI 自動剪片怎麼做?用 Claude Code 指揮 ffmpeg+Whisper,口播影片只動口、後製省一個下午(2026)

目錄

💡 核心結論速覽 (TL;DR)

  • 自動做影片 = 會下指令的 AI + 裝好工具的電腦Claude Code 這類 AI agent 是大腦(看懂你要什麼、下指令),真正剪片的是電腦裡的工具。先把工具裝好,AI 才有東西可以指揮。
  • 核心五件套全免費開源ffmpeg(最重要,八成影片指令都在叫它)、Whisper(語音轉字幕)、Auto-Editor(自動去停頓)、yt-dlp、ImageMagick;地基是 Homebrew、Python、Node 和中文字型
  • 口播影片 6 步幾乎全自動:錄音 → Whisper 轉字幕 → Auto-Editor 去停頓 → 做字卡 → ffmpeg 燒字幕配樂 → 輸出 9:16,全程主要動口、不碰剪輯軟體。
  • 最該記住的雷:中文字型沒先裝,字幕會變亂碼。一份指令流程包好後,Claude Code、Codex、Cursor、Antigravity 幾乎都能通用。

先講一個我自己的痛點:做 Podcast 和影片這幾年,最耗時間的從來不是講內容,是後製——轉字幕、剪掉「呃…那個…」、上字卡、配樂,一支幾分鐘的口播影片能磨掉我一整個下午。直到我開始用 AI agent 指揮一串免費工具,才發現原來這些重複的苦工,可以幾乎全交出去。

這篇我想把「用 Claude Code 讓 AI 自動幫你做影片」這件事,從觀念到實際開始,一次講清楚。不是丟一堆工具名讓你自己摸,而是告訴你:為什麼要這樣做、四家 AI 怎麼選、到底先裝什麼、每個任務對應哪個工具、以及我自己踩過的雷。

如果你是口播型的創作者、Podcaster,或只是受夠了重複的剪片苦工,這篇就是寫給你的。但動手裝一堆東西之前,我想先誠實說清楚:這套流程能幫你什麼、不能幫你什麼。


先說清楚:它能幫你什麼、不能幫你什麼

網路上談這套流程的,多半把它講得像魔法。我自己實際跑了一段時間,覺得先把期待調對,你才不會裝到一半就放棄。簡單說,它取代的是後製苦工,不是你的創意

它幫你扛掉(重複苦工) 還是你的事(創意判斷)
口播轉字幕、自動去停頓贅字 內容講什麼、觀點是什麼
燒字幕、上字卡、配樂混音 節奏怎麼抓、哪一段該留該砍
批次、重複產出、輸出多種比例 精緻轉場、動畫特效、美感風格

所以我的定位很清楚:它最適合「同一種格式、要一直重複做」的口播短影音、Podcast 切片、教學片。如果你每支影片都要不一樣的炫炮特效,那這套反而綁手綁腳——那種需求現成的圖形剪輯 App 更順。把這點想通,再決定要不要往下裝。

下一步:先誠實問自己「我是不是會一直重複做同一種影片」。是,這套就值得;不是,後面可以先收藏不用急著裝。


關鍵觀念:AI 是大腦,工具才是手腳

很多人以為「叫 AI 幫我剪片」是直接把影片丟給它就好,結果發現行不通。關鍵觀念是:AI 是大腦,不是手腳。像 Claude Code 這樣的 AI agent,負責的是「看懂你要什麼、決定步驟、下出正確的指令」;真正去轉文字、剪片、上字幕的,是你電腦裡的那些工具軟體。

所以這件事的公式很簡單:自動做影片 = 會下指令的 AI + 裝好工具的電腦。先把工具裝好,AI 才有東西可以指揮;少了工具,再聰明的 AI 也只能跟你乾聊。這也是為什麼「該裝什麼」比「用哪個 AI」更該先搞清楚。

我自己第一次搞懂這層關係時其實有點豁然開朗——以前我一直想找「一個能剪片的 AI」,後來才發現對的問法是「哪個 AI 最會指揮我電腦上的剪片工具」。想更完整理解 AI agent 怎麼指揮你電腦做事,我整理過Claude Code 每天真正省時的指令與快捷鍵,看完你會更知道它能做到什麼程度。

下一步:把心態從「找一個會剪片的 AI」換成「裝好工具,讓 AI 來指揮」。觀念對了,下面的安裝才有意義。


用哪個 AI 來指揮?挑你手邊有的就好

能扮演「大腦」的 AI agent 不只一個,好消息是——一套流程包好後,這幾家幾乎都能通用。差別在費用、上手難度和你原本的習慣。我把四家整理成一張表:

AI agent 特點 適合誰
Claude Code 要付費,但 skill 生態最成熟、能打包分享 想長期自動化、願意投資工具的人
Codex CLI 可免費試用,本來就用 ChatGPT 的人最順 ChatGPT 重度使用者
Cursor 有免費版、有圖形畫面 怕純終端機、想看得到介面的人
Antigravity 有免費額度 重度使用 Google 生態的人

我自己主力是 Claude Code,因為它能把整套流程打包成可重用的 skill,下次做影片一句話就喚醒,這對天天產內容的人省超多。但如果你只是想先試水溫,用有免費額度的 Codex CLI 或 Cursor 完全可以。選哪家不必糾結太久——重點是流程,不是品牌。關於免費版到底夠不夠用,我寫過AI 免費 vs 付費實測可以參考。

下一步:先用你手邊已經有的那家開始(有訂 ChatGPT 就 Codex、用 Claude 就 Claude Code),別為了這篇又多訂一個。


工具清單:地基 4 個、主力 5 個,ffmpeg 是核心

這是最多人卡關、也最該一次搞定的部分。工具分兩層:一層是「地基」,裝一次幾乎終身用;一層是「核心五件套」,真正在做影片的就是它們。

地基(裝一次終身用)

  • Homebrew——Mac 的套件管理員,之後裝其他工具都靠它。
  • Python、Node——很多工具的執行環境。
  • 中文字型——🚨 這個最容易被忽略,沒裝的話字幕會變成一堆亂碼方塊,後面會再提醒。

核心五件套(真正做影片的工具)

  • ffmpeg——影音處理的萬用瑞士刀,AI 八成的影片指令都在叫它(燒字幕、配樂、轉檔、接片頭尾)。最重要的一個。
  • Whisper——把你的口播錄音轉成文字、產出字幕檔。
  • Auto-Editor——自動偵測並刪掉停頓、靜音,幫你做掉最煩的「去贅字空白」。
  • yt-dlp——需要抓網路影片素材時用。
  • ImageMagick——程式化生成字卡、處理圖片。

好消息是:你不用自己背安裝指令。把「我要在 Mac 上裝好這些影片工具」這個需求丟給 Claude Code,它會幫你一行一行裝、遇到錯誤還會自己排除。這正是 AI agent 最香的地方——連「裝工具」這關都能交給它。當然,讓 AI 在你電腦上跑安裝指令前,記得先把權限和邊界設好,我在AI 代理刪檔的五道防線講過為什麼這步不能省。

下一步:直接請你的 AI agent「幫我在這台電腦裝好 ffmpeg、Whisper、Auto-Editor、yt-dlp、ImageMagick 和中文字型」,讓它代勞。


每個剪片動作,該叫哪個工具做

知道有哪些工具還不夠,你得知道「我要做的這件事,該叫哪個工具」。這樣你給 AI 的指令才精準。我把口播影片最常見的需求對應整理成一張表:

你想做的 對應工具
錄音轉文字 Whisper/MacWhisper/SenseVoice
上字幕 Whisper 出 SRT + ffmpeg 燒上去
自動快剪(去停頓) Auto-Editor
上字卡 ImageMagick + ffmpeg
配音(AI 語音) ElevenLabs
配樂、混音 ffmpeg

你會發現 ffmpeg 一直出現——它真的是核心中的核心。另外提醒一個成本重點:這張表裡只有 ElevenLabs 配音是要付費的,其餘全是免費開源工具。如果你用自己的聲音口播,連配音都省了,整套幾乎零成本。把這些工具串成一條流水線,就是下一段的 6 步。

下一步:對照你影片的需求,圈出你會用到的幾個工具——多數口播影片其實只需要 Whisper+Auto-Editor+ffmpeg 就夠。

AI 自動剪片流程懶人包 2026:口播錄音→Whisper 轉字幕→Auto-Editor 去停頓→ImageMagick 字卡→ffmpeg 燒字幕→輸出 9:16 六步一張看懂
AI 自動做口播影片 6 步:每步對應的工具與「中文字型先裝」的雷一張看懂。

我實際的口播影片流水線(錄音到成片)

把工具串起來,這是我自己跑的流水線,一支口播影片大致這樣走,而且每一步都能讓 AI 幫你執行:

❶ 拿到錄音——你只要把口播錄好(手機、電腦都行)。

❷ Whisper 轉字幕——把錄音轉成帶時間軸的字幕檔(SRT)。

❸ Auto-Editor 去停頓——自動剪掉中間的空白、贅頓,影片瞬間變緊湊。

❹ ImageMagick 做字卡——生成標題卡、重點字卡。

❺ ffmpeg 燒字幕、配樂、接片頭尾——把字幕燒進畫面、加上背景音樂、串好片頭片尾。

❻ 輸出 9:16 成品——直接產出適合 Reels、Shorts、抖音的直式影片。

🚨 最該記住的雷中文字型一定要先裝,不然第 5 步燒字幕時,中文會變成一排亂碼方塊,整支影片白做。這是新手最常踩、也最冤的坑。

實際操作時,你不需要記住每一步的指令——你只要跟 AI 說「把這段錄音照這個流程做成有字幕、去停頓的 9:16 影片」,它會依序呼叫對的工具。真正動腦的判斷(節奏、留哪段、字卡放哪)還是你的,但純苦工的部分交出去了。

下一步:先用一支短錄音跑完整 6 步試試,跑通一次,後面就只是重複套用。


把流程打包成「一份 skill 各家通用」

跑通一次之後,真正讓效率翻倍的關鍵,是把這套流程打包起來,下次不用重新教 AI。在 Claude Code 裡,你可以把「口播影片自動化」寫成一個 skill 或指令流程,之後一句話就喚醒整條流水線;而且因為它本質上是「呼叫一串標準 CLI 工具」,這份流程在 Codex、Cursor、Antigravity 上也幾乎通用——這就是 IG 上說的「一份 skill 各家通用」。

怎麼把流程打包成可重用、甚至分享給別人的外掛,我在Claude Code 外掛與 plugin 市集那篇拆得很細。對天天產內容的人,這一步是從「每次手動跑」進化到「一鍵出片」的分水嶺。

這個「把重複工作流標準化」的思路,其實跟我做圖文內容的方式一樣。我把一篇文章拆成封面、社群圖、資訊圖的Canva+ChatGPT 工作流,和用多模型分工的AI 寫作工作流,都是同一招:把會重複的部分變成可複用的流程。

下一步:等你手動跑順了,就請 AI 幫你把這套流程寫成一個可重用的 skill/指令,之後做影片只要喚醒它。


踩坑、成本與適合誰

講點實話,這套流程很香,但不是零門檻。我把自己踩過的坑和成本誠實列給你:

  • 中文字幕亂碼——最常見,根因是沒裝中文字型,前面提過,務必先裝。
  • Auto-Editor 剪過頭——它靠音量判斷停頓,有時會把你刻意的停頓也剪掉,參數要微調(這也可以叫 AI 幫你調)。
  • Whisper 中文標點、錯字——中文辨識偶爾會有錯字或標點怪怪的,字幕燒上去前最好快速校一遍。
  • ffmpeg 學習曲線——它指令很硬,但這正是讓 AI 代勞最划算的地方,你幾乎不用自己學。

成本上:核心五件套全部免費開源,唯一要錢的是 ElevenLabs 那種 AI 配音;用自己的聲音就全免費。真正的成本其實是「AI agent 的訂閱費」和「第一次裝好+跑通的時間」。關於 AI agent 的用量怎麼省,可以看省 token 心法

✅ 適合誰:口播型創作者、Podcaster、要大量產短影音、願意花一個下午裝好環境的人。

❌ 不適合誰:偶爾才做一支影片、需要精緻轉場特效、完全不想碰任何指令的人——這種情況,現成的圖形剪輯 App 反而更省事。

下一步:評估你是不是「會重複做口播影片」的人。是,就值得花一次力氣建好;不是,就別硬上。


上片前,別忘了 AI 揭露

最後一個容易忽略的點:如果你的影片用了 AI 配音、AI 生成的畫面,上傳到 YouTube 等平台時,可能需要依規定做 AI 內容揭露,弄錯可能影響營利。這跟「自動化剪片」是兩回事,但都是創作者該知道的眉角。完整的揭露與營利規則,我整理在YouTube AI 影片揭露規則那篇,上片前掃一眼比較安心。

下一步:用到 AI 配音或 AI 生成畫面前,先確認你要上的平台揭露規則,別等被標記才補。


FAQ 常見問題

我完全不會程式,也能用 Claude Code 自動做影片嗎?

可以,這正是 AI agent 的意義。你不用自己寫 ffmpeg 指令,只要用白話跟它說需求(「把這段錄音做成有中文字幕、去掉停頓的 9:16 影片」),它會幫你呼叫對的工具、甚至幫你裝好環境。你要做的是描述需求和把關成品,不是寫程式。但第一次裝環境會需要一點耐心,跟著 AI 一步步來即可。

這套工具要花錢嗎?

核心工具全免費開源——ffmpeg、Whisper、Auto-Editor、yt-dlp、ImageMagick 都不用錢。唯一要付費的是 AI 配音(如 ElevenLabs),但你用自己的聲音口播就省了。真正的成本是 AI agent 的訂閱費,以及第一次把環境裝好、跑通的時間。

為什麼我的字幕變成亂碼方塊?

幾乎都是「沒裝中文字型」造成的。ffmpeg 在燒字幕時找不到中文字型,就會顯示成方塊。解法是先在系統裝好中文字型(這也可以請 AI 幫你裝),再重跑燒字幕那步就正常了。這是新手最常踩的雷,務必在開始前先裝字型。

Claude Code、Codex、Cursor、Antigravity,新手該選哪個?

用你手邊已經有的那個最省事:有訂 ChatGPT 就用 Codex CLI、用 Claude 就用 Claude Code、怕純終端機想看畫面選有免費版的 Cursor、重度用 Google 選有免費額度的 Antigravity。因為流程本質是呼叫同一串工具,一份做好的流程幾乎四家通用,不必為了這件事再多訂一個。


結論:把苦工交出去,把判斷留給自己

用 Claude Code 讓 AI 自動做影片,我最大的體會是:它幫你扛掉的是「轉字幕、去停頓、燒字幕」這些重複又花時間的苦工,而真正重要的——內容講什麼、節奏怎麼抓、哪句該留——還是牢牢握在你手上。這不是讓 AI 取代創作者,是把創作者從後製泥沼裡撈出來。

如果你今天只帶走一件事,我會說:先花一個下午,請你的 AI agent 幫你把「地基+核心五件套+中文字型」裝好,用一支短錄音跑通一次 6 步流程。跑通的那一刻你會發現,原來最花時間的事,真的可以只動口。

想把整套 AI 工作流用得更順,可以接著看我整理的Claude Code 每天真正省時的指令,和怎麼把流程打包成可重用的外掛。如果這種「幫你把工具串成一條流水線」的內容對你有用,歡迎追蹤夜羽凌的部落格,我會不定期把自己每天在用的 AI 創作流程整理給你。


參考資料

 

延伸閱讀