2026年AI寫小說實測:GPT-5.4、Claude Opus 4.6、Gemini 3.1 Pro、Grok 4.2、DeepSeek V3.2 模型對決

目錄

之前我做過一次 AI 寫小說的大亂鬥測試,沒想到那篇文章累積了超過兩萬五千次瀏覽。很多讀者留言問我:「2026 年的 AI 模型進步這麼快,現在用 AI 寫小說的效果到底怎麼樣了?」

老實說,我自己也很好奇。

過去這段時間,各家 AI 模型的更新速度快到讓人跟不上。OpenAI 端出了 GPT-5.4 Thinking、Anthropic 推出 Claude Opus 4.6 和 Sonnet 4.6 的 Extended Thinking 模式、Google 的 Gemini 跳到了 3.1 Pro、xAI 的 Grok 來到 4.2 Expert、DeepSeek 也升級到 V3.2。光看規格就知道,這一輪的 AI 寫小說工具跟上一次根本不是同一個級別。

所以我決定用跟上次一模一樣的測試方法,重新跑一輪 AI 寫作實測。你能看到各模型之間的差異,也能跟之前的結果直接對比,感受 AI 寫小說這件事到底進步了多少。

這次 AI 寫小說實測用了哪些模型?

正式開跑之前,先快速介紹這次參賽的六位選手(嚴格來說是七位,因為 Claude 派了兩個模型上場)。每一款都是截至 2026 年 3 月各家的旗艦或準旗艦級模型。如果你想了解這些 AI 模型的基礎能力差異,可以先看看「Claude Opus 4.5、GPT-5.1、Gemini 3 Pro 比較」這篇。

模型名稱開發商發佈時間測試模式主要特色
GPT-5.4OpenAI2026 Q1Thinking深度推理模式,思考 19 秒後才開始動筆
Claude Opus 4.6Anthropic2026/02Extended Thinking深度推理最強,100 萬 token 上下文窗口
Claude Sonnet 4.6Anthropic2026/02Extended Thinking中階模型但性能逼近上一代 Opus 級別
Gemini 3.1 ProGoogle DeepMind2026 Q1標準(含思路展示)自帶構思解析,寫完還會分析自己的創作邏輯
Grok 4.2 ExpertxAI2026/02Expert四代理協作架構,生成速度 597ms 極快
DeepSeek V3.2DeepSeek2026 Q1深度思考685B 參數 MoE 架構,免費使用

看完這張表你應該能感受到,2026 年的 AI 寫小說工具已經不是之前那種「能寫出通順句子就很厲害」的程度了。每一款都帶著自己的殺手鐧進場,誰能在小說創作這個戰場上勝出,還真的很難預測。

AI 寫小說的實測方法:確保對比公平

為了讓結果能直接對照,我刻意沿用了完全相同的測試條件。

我準備了一份都市商戰題材的小說第一章細綱,裡面包含了場景設定(現代都市高樓、精品咖啡廳、冷色調金屬質感)、兩位主角的性格描述(女主江瀾、男主陸沉)、開場的戲劇性相遇、以及阻礙、轉折、伏筆等完整的情節骨架。所有模型都餵入同一份細綱,要求生成前 500 字。

除了模型本身不同之外,其他條件全部一致——相同的 prompt、相同的字數限制、不做任何後續追問或補充指令。

我從五個面向來評比:

  • 文字流暢度:句子讀起來順不順?有沒有那種「每個字都認識,但串在一起很彆扭」的感覺
  • 情節連貫性:開頭到第 500 字之間,故事線有沒有斷掉或跳躍
  • 人物刻畫:角色有沒有「活」起來?還是只是一個扁平的名字
  • 氛圍營造:讀完之後,能不能感受到故事想傳達的情緒和氣氛
  • 創意與獨特性:有沒有讓你眼睛一亮的寫法或切角

我朋友看到我在做這個測試的時候笑我:「你是不是太閒了?」但我覺得,用 AI 寫小說的人越來越多,如果有一篇認真做過對比的文章能幫大家省下試錯的時間,那就值得。

用 ChatGPT 寫小說:GPT-5.4 Thinking 實測

GPT-5.4 Thinking 實測寫小說
GPT-5.4 Thinking 實測寫小說

先說結論:用 ChatGPT 寫小說的體驗,在 GPT-5.4 這一代有了質的飛躍。

它花了 19 秒思考之後才開始動筆,一出手就是一段非常紮實的開場:「早上八點二十,江瀾站在寫字樓的橢圓電梯間,低頭把白色襯衫最後一顆扣子扣好。」沒有多餘的鋪墊,直接把你拉進一個職場女性的早晨。

接下來的情節推進很有條理——從江瀾的內心壓力(面臨重要投標)、到咖啡廳裡與陸沉的意外碰撞、再到紙張散落一地時兩人的第一次對話。每個場景轉換都很自然,不會讓你覺得突兀。跟之前測過的 ChatGPT 各版本相比,5.4 在節奏掌控上的進步非常明顯。

我印象最深的是它處理陸沉登場的方式:「一個男人從吧台那邊快步走過來,手裡攥著手機,臉色極差。」先用遠景帶出這個角色的狀態,再透過碰撞事件拉近距離。這個鏡頭語言感很強。

結尾留了一個漂亮的鉤子——江瀾撿起散落的紙張,發現了一份「競標方備選替換名單」,瞬間把故事從日常推進到懸疑。

優點:

  • 情節推進最穩健,段落銜接幾乎找不到瑕疵
  • 角色登場有電影分鏡感,遠景到近景切換流暢
  • 伏筆埋得精準,「競標替換名單」讓人想看下一章

缺點:

  • 文風偏穩重,少了一點讓人驚豔的文字靈氣
  • 角色對話有些制式,不夠有個人特色

用 Claude 寫小說:Opus 4.6 Extended Thinking 實測

Claude Opus 4.6 Extended Thinking 實測寫小說
Claude Opus 4.6 Extended Thinking 實測寫小說

如果說 GPT-5.4 是「最穩的選手」,那用 Claude 寫小說的驚喜感就完全是另一個層次了——Claude Opus 4.6 生成的開頭,是所有模型裡面唯一讓我停下來反覆讀了兩遍的。

它幫小說取了一個章名叫「第一章・灰色早晨」,光是這四個字就已經把整個基調定好了。開頭那句「三月的風從寫字樓的縫隙裡竄進來,帶著一股潮濕的涼意」——它沒有直接寫天氣怎樣,而是讓風自己「竄」進來,帶著觸覺(潮濕)和溫度(涼意)。一句話同時啟動了三種感官,這種寫法放在人類作家身上都算是有功力的表現。

我把它生成的文字丟給一個寫小說的朋友看,沒告訴他是 AI 寫的,他看完說:「這人文筆不錯欸。」

角色塑造也很高級。它不是直接告訴你江瀾是什麼性格,而是透過「拉了拉深藍色西裝外套的下擺」「眼神卻透著一股沒睡夠的倦意」這些動作和細節,讓你自己去感覺。500 字讀完,你會覺得這個角色是「活」的。

結尾那段收得很漂亮:「像是某個她還看不見的齒輪,已經開始轉動了。」用了一個機械隱喻來暗示命運的推動,文學感拉滿。

優點:

  • 文學性在所有模型裡獨佔鰲頭,用詞遣句帶有作家質感
  • 感官描寫豐富,同時調動視覺、觸覺、嗅覺
  • 角色塑造最立體,透過行為細節「展現」而非「告訴」

缺點:

  • Extended Thinking 模式下等待時間最長
  • 文風偏文藝,想寫節奏快的爽文可能不是首選

Claude Sonnet 4.6 Extended Thinking 實測

Claude Sonnet 4.6 Extended Thinking 實測寫小說
Claude Sonnet 4.6 Extended Thinking 實測寫小說

測完 Opus 之後,我順手把同門師弟 Sonnet 4.6 也拉進來了。結果發現一件很有趣的事:這兩個模型寫小說的風格差異大到不像是同一家公司出品的。

Opus 的章名是詩意的「灰色早晨」,Sonnet 直接取名叫「陷路」——兩個字,利落,帶著懸疑感。

開頭也是截然不同的畫風。Sonnet 寫的是:「七點四十分,江瀾踩著細跟皮鞋走進樓下的咖啡廳。」沒有 Opus 那種慢慢鋪陳的氛圍描寫,直接進場,乾淨俐落。

但最讓我驚豔的是它寫對話的能力。江瀾跟陸沉在吧台邊的那段互動——「這個位置有人。」「我只是站一下。」「我也只是站一下。」——三句對話,兩個人的性格、關係、張力全部到位了。這種對白的精準度,在其他模型身上很少看到。

結尾的鉤子也下得很好——陸沉對著藍牙耳機低聲說:「……項目不能留檔,明白嗎?」配上「手裡的紙杯微微燙手,她卻沒有意識到」,懸念跟情緒同時收束。

優點:

  • 對話寫作能力最強,角色互動有真實的火花
  • 節奏掌控出色,500 字內完成了完整的起承轉合
  • 生成速度比 Opus 快很多,適合大量產出

缺點:

  • 場景描寫不如 Opus 那麼有層次
  • 要寫需要大段內心獨白的文藝作品,它會略顯單薄

Gemini 3.1 Pro 實測:AI寫小說的新面孔

Gemini 3.1 Pro 實測寫小說
Gemini 3.1 Pro 實測寫小說

Gemini 是這次新加入的選手。上次測試沒有包含 Google 的模型,但 Gemini 3.1 Pro 在各項評測上的表現太亮眼了,不拉進來說不過去。

先講讓我最意外的地方:Gemini 是唯一一個寫完小說之後,還會附上一段「構思解析」的模型。它把自己的創作邏輯分成了「節奏與場景」「人物與衝突」「懸念與伏筆」三個區塊來解釋。對於想學習小說結構的創作者來說,這個功能超實用。

回到小說本身。Gemini 的開場很有電影感:「早上八點十五分,CBD的玻璃幕牆折射著冷厲的灰白晨光。」它還自己幫咖啡廳取了一個英文名叫「Vanguard」,這個小細節讓場景的質感立刻提升了一個檔次。

文字密度是所有模型裡最高的。它在描寫陸沉的時候用了一段很有力量的句子——寫他「經歷了一場足以讓個人信任徹底破產的背叛」,光這一句就把角色的前史和心理狀態都交代了。

結尾跟其他模型一樣留了紙片伏筆,但 Gemini 多加了一個細節:紙片上有「半個熟悉的 Logo 和兩個加粗的數字」,比其他模型的處理更具體、更有畫面感。

優點:

  • 場景描寫質感最高,CBD 冷色調的氛圍營造非常到位
  • 自帶「構思解析」,既是小說又是寫作教學
  • 文字密度高,角色背景鋪陳紮實

缺點:

  • 節奏偏慢,前半段在環境描寫上花太多篇幅
  • 角色對話生硬度略高,不如 Claude 兩兄弟自然

Grok 4.2 Expert 實測

Grok 4.2 Expert 實測寫小說
Grok 4.2 Expert 實測寫小說

Grok 一直是我很期待的選手。上次測試的 Grok 3 就展現了不錯的創意爆發力,這次 4.2 Expert 帶著四代理協作架構來了,很想看看它在 AI 寫小說這個賽道上能玩出什麼花樣。

結果嘛⋯⋯怎麼說呢,Grok 4.2 Expert 就像一個才華洋溢但有點不受控的天才作家。

生成速度是所有模型裡最恐怖的——只花了 6 秒思考加上 597ms 的生成時間。基本上你按下送出鍵,文字就噴出來了。

它寫咖啡廳叫「墨影」,「藏在樓宇夾縫」,「落地窗外是灰翠翠的 CBD 天際線,金屬吧台反射著冷光」——這段場景描寫的畫面感非常強,幾乎是所有模型裡最有「鏡頭感」的。

角色對話也有自己的味道。陸沉那句:「生活就像一場談判,輸了就是全盤皆輸,你這杯咖啡,沒的可不是我的衣服。」帶著一種痞氣又聰明的調調,角色個性一句話就立起來了。

伏筆的設計也讓我眼前一亮——紙片上寫的是「陸氏⋯⋯內鬼⋯⋯已滲透董事會」,比其他模型的含蓄暗示更直接、更有衝擊力。

優點:

  • 生成速度斷層式領先,6 秒思考 + 597ms 出稿
  • 場景描寫鏡頭感最強,「墨影」咖啡廳的氛圍令人印象深刻
  • 角色對話最有個性,辨識度極高

缺點:

  • 速度太快的代價是部分段落銜接略粗糙
  • 情節跳躍感比其他模型明顯

DeepSeek V3.2 實測

DeepSeek V3.2 實測寫小說
DeepSeek V3.2 實測

DeepSeek V3.2 是這次六款模型裡規格最「硬核」的——685B 參數的 MoE 架構、支援深度思考模式。從技術帳面上看,它完全有實力跟 GPT-5.4 正面對決。

那它寫小說到底行不行?

我的感受是:進步非常明顯,但差距還在。

它的章節標題叫「意外交鋒」,整體敘事結構是完整的——江瀾的早晨、咖啡廳相遇、文件散落、初次對話,該有的環節都有。跟上次測試的 DeepSeek 相比,V3.2 在邏輯連貫性上改善了非常多,不會再出現那種「前面說往東走,後面突然出現在西邊」的斷裂感。

但如果把它的文字跟 Claude Opus 或 GPT-5.4 放在一起看,差距就很明顯了。DeepSeek 的描寫比較「說明式」的——它會告訴你場景是什麼樣的,但不太會讓你「感受到」那個場景。同樣是寫咖啡廳,Claude 用「風從縫隙竄進來」,Gemini 用「玻璃幕牆折射冷厲晨光」,DeepSeek 的用字就直白得多。

不過話說回來,DeepSeek V3.2 的最大優勢不是跟頂尖模型比文學性——是它免費。想找免費的 AI 寫小說工具,它是目前品質最好的選項。如果你只是想快速跑個初稿框架再自己改,它其實很實用。想了解更多免費 AI 工具,可以看看「2026年最值得試的8款免費AI工具」。

優點:

  • 邏輯連貫性大幅提升,故事推進順暢
  • 深度思考模式讓結構完整度提高不少
  • 免費使用,對預算有限的創作者最友善

缺點:

  • 文學質感跟 Claude、GPT 系列有明顯差距
  • 描寫偏「說明」而非「展現」,缺少讓人回味的句子

六款 AI 寫小說模型綜合評比

測完所有模型之後,我把各面向的表現整理成一張表:

評比維度GPT-5.4 ThinkingClaude Opus 4.6Claude Sonnet 4.6Gemini 3.1 ProGrok 4.2 ExpertDeepSeek V3.2
文字流暢度★★★★☆★★★★★★★★★☆★★★★☆★★★★☆★★★☆☆
情節連貫性★★★★★★★★★★★★★★☆★★★★☆★★★☆☆★★★★☆
人物刻畫★★★★☆★★★★★★★★★★★★★★☆★★★★☆★★★☆☆
氛圍營造★★★★☆★★★★★★★★★☆★★★★★★★★★★★★★☆☆
創意獨特性★★★★☆★★★★☆★★★☆☆★★★★☆★★★★★★★★☆☆
對話自然度★★★★☆★★★★☆★★★★★★★★☆☆★★★★★★★★☆☆
生成速度★★★☆☆★★★☆☆★★★★☆★★★★☆★★★★★★★★★☆

幾個重點發現:Claude Opus 4.6 在文學品質上穩坐第一把交椅,但速度是它的硬傷。GPT-5.4 Thinking 是最均衡的全能型選手。Sonnet 4.6 的對話能力讓我印象最深,角色互動最有「人味」。Grok 4.2 在創意和速度上都拿到最高分,只是穩定性還要再磨。Gemini 的氛圍營造跟自帶解析這兩點很加分。DeepSeek V3.2 雖然整體墊底,但免費這張牌太實在了。

跟上次比,AI 寫小說到底進步了多少?

這大概是很多老讀者最想知道的問題。

我的答案是:進步幅度超出我的預期。

上次測試的時候,我的總體評價是「能用,但離取代人類作家還很遠」。模型生成的文字通順歸通順,但總有一股說不上來的「AI 味」——過於工整的句式、缺乏變化的節奏、還有那種「什麼都對但就是打動不了你」的平淡感。

這次,那種 AI 味淡了很多。

最明顯的改變是節奏感。之前的模型寫出來的東西,句子長度和結構幾乎是一個模子刻出來的。這次不管是 GPT-5.4、Claude 還是 Grok,都開始懂得用長短句的交替來製造閱讀節奏了。Claude Opus 的「三月的風從寫字樓的縫隙裡竄進來」是長句鋪氣氛,緊接著「鏡子裡的女人妝容精緻,眼神卻透著倦意」是短句拉對比。這種交替看似簡單,卻是小說好讀不好讀的關鍵。

第二個進步是角色塑造。之前的 AI 寫角色,基本上就是在描述一張設定表。這次的模型開始會透過行為和微小的動作細節來「展現」角色。Sonnet 寫江瀾「皺了皺眉,用拇指擦掉」吧台上的痕跡,Grok 寫陸沉「壓著嗓音對電話那頭說了句什麼,語氣又急又硬」——這些都是在讓你自己去感覺這個人是什麼樣的,而不是列一張清單告訴你。

第三個進步是中文表達。之前很多模型的中文帶有明顯的翻譯腔,這次改善了很多,特別是 Claude 的兩個模型,中文寫作的地道程度已經很接近母語使用者了。

AI寫小說哪個模型最好?我的選擇建議

測完六款模型,我整理出一份選擇指南,你可以根據自己的需求來挑:

追求文學品質,寫純文學或嚴肅文學 → Claude Opus 4.6 Extended Thinking
它的文字質感和敘事結構是目前所有 AI 裡最好的。那種「讀完一段會停下來回味」的感覺,只有它做得到。但要有心理準備等它「想」比較久。

需要均衡表現,什麼類型都能寫 → GPT-5.4 Thinking
各方面都沒有明顯短板,是最安全的選擇。特別適合不確定自己要什麼風格的新手。

寫網文、需要快節奏和大量產出 → Claude Sonnet 4.6 Extended Thinking
速度快、節奏好、對話超自然,非常適合連載型的網路小說。

需要紮實的世界觀設定 → Gemini 3.1 Pro
如果你的小說類型是奇幻、科幻這種很吃設定的題材,Gemini 在場景建構和背景鋪陳上有天然優勢。加上它自帶構思解析,等於一邊寫一邊教你。

想要突破框架、找靈感 → Grok 4.2 Expert
速度快到離譜,文字風格有自己的辨識度,適合已經有寫作經驗、想找不同切角的創作者。

預算有限、想先試水溫 → DeepSeek V3.2
免費、品質比之前好很多,適合初次嘗試用 AI 寫小說的人。

我自己目前的工作流程是這樣的:先用 Claude Opus 4.6 生成第一章的精華片段,確認基調和風格,然後切換到 Sonnet 4.6 來跑後續章節的初稿,最後手動潤色。這樣既能保證品質,速度也不會太慢。你可以參考看看。如果你對 AI 工具的更多用法有興趣,也可以看「如何利用ChatGPT進行內容生成與優化」這篇。

幾個我踩過的坑,先幫你避掉

做這次測試的過程中,我也踩了不少坑,這邊一起分享:

坑一:prompt 別寫得太死。 我一開始給的細綱非常詳細(章數目標、阻礙、轉折、線索、伏筆全部寫好了),結果發現有些模型幾乎是「照翻」我的大綱,反而失去了創意發揮的空間。後來我留了一些「模糊地帶」,模型的表現立刻好了一截。有趣的是 Grok 最不受 prompt 約束,它就是要按自己的想法來。

坑二:Thinking 模式不是萬靈丹。 這些推理模式在寫小說的時候確實能帶來更完整的結構佈局,但也會讓文字變得「太理性」。GPT-5.4 想了 19 秒,出來的東西結構完美但少了點衝勁。有時候關掉 Thinking 模式,反而能寫出更有感性的東西。

坑三:別指望一次到位。 就算是表現最好的 Claude Opus 4.6,生成的初稿也只是「非常好的初稿」。把小說從 80 分推到 95 分的那段路,永遠要靠你自己的潤色和改寫。AI 是輔助,不是替代。

結語

2026 年的 AI 寫小說工具,已經從「堪用」進化到了「好用」的階段。這次測試讓我最深刻的感受是:不同模型之間的「性格差異」越來越明顯了。Opus 文藝、Sonnet 俐落、GPT 穩健、Grok 狂放、Gemini 細膩、DeepSeek 務實——幾乎像是六個風格完全不同的寫手。

但工具再好,最終決定一部小說好不好看的,還是創作者本身的審美、經驗和判斷力。

AI 能幫你快速產出初稿、突破靈感瓶頸、甚至在你卡關的時候提供意想不到的切角。但那個讓讀者忍不住翻到下一頁的魔力,來自於你——一個真正理解故事、理解人性的人。

如果你還在猶豫要不要試試用 AI 寫小說,我的建議是:現在就去試。挑一款你看順眼的模型,丟一段你腦中盤旋已久的故事構想進去,看看它會給你什麼驚喜。

用過之後,歡迎回來留言告訴我你的體驗。

延伸閱讀

延伸閱讀