有一種提示技術叫做思維鏈(Chain-of-Thought,簡稱 CoT),根據 Google Brain 的原始研究,它能將 AI 在數學和邏輯任務上的推理準確率提升 40 至 60 個百分點。大多數中階 AI 使用者都聽過它,但幾乎沒有人用對。修正的關鍵只有六個字,而且在 2026 年所有主流前沿模型上都有效,包括 GPT-5.4、Claude Opus 4.7 和 Gemini 3.1 Pro。
這篇文章會帶你了解思維鏈在語言模型內部實際做了什麼,如何運用零樣本與少樣本兩種變體,為什麼自我一致性(Self-Consistency)在高準確率場景中至關重要,以及這項技術在哪些情境下會悄悄失效。讀完之後,你會得到一個可以直接複製貼上的提示範本,在下次使用 ChatGPT 或 Claude 時立即測試。
思維鏈為何真的有效
答:思維鏈提示法強制語言模型在輸出最終答案之前,先生成中間推理步驟。由於模型在生成下一個詞時,會以已經產生的每一個詞作為上下文,因此把推理過程寫出來,等於提供更多相關上下文供模型參考,這在多步問題上能將準確率提升 40 至 60 個百分點(Wei et al., Google Brain, 2022)。
標準提示要求一個答案,模型會用任何符合模式的方式直接跳到結論。在簡單任務上沒問題,但只要涉及多重條件、計算或比較,模型常會漏掉一個步驟,或把焦點錯置在不重要的細節上。
思維鏈改寫了規則。你要求模型展示其推理過程,然後再給出結論。每一個推理步驟都成為模型生成下一步時的上下文。輸出會變慢、變長,但推理過程是可審視的,而且在有正確答案的任務上,準確率會明顯上升。
零樣本 CoT:六個字的升級
答:零樣本思維鏈是最簡單的版本。你只需在提示末尾加上一句指令,例如「讓我們一步一步思考」。不需要任何範例。這個觸發短句本身就能讓模型在最終答案前產生一段推理鏈,是任何非瑣碎任務都應該預設使用的技術。
研究員 Kojima et al.(2022)證明,光是在提示末尾加上「Let's think step by step」,就能將 GPT-3 在小學數學題上的準確率從 17.7% 提升到 78.7%。這個觸發短句後續經過微調,但核心原理在 2026 年所有前沿模型上仍然成立。
試試這個提示:
一位客戶的 4 週行銷活動預算為 50,000 港元,他想將 60% 投放於 Meta 廣告、25% 投放於 Google 搜尋廣告、15% 投放於 LinkedIn。Meta 平均 CPL 為 120 港元、Google 為 200 港元、LinkedIn 為 450 港元。他應該預期能取得多少潛在客戶?以 200 個潛在客戶為目標,哪個渠道的成本效益最高?
讓我們一步一步思考。
模型接下來會列出預算分配、計算每個渠道的潛在客戶數量,然後評估成本效益。推理鏈本身就是讓你揪出計算錯誤、看見真正答案的關鍵。
少樣本 CoT:教模型你想要的推理風格
答:少樣本思維鏈是進階版。你不再依賴觸發短句,而是在提示中提供 2 至 3 個完整的工作範例,每個範例包含輸入、推理過程和答案。模型會在處理你真正的問題時,模仿這個推理模式。當你重視的不只是答案正確性,更是推理風格時,請用這個方法。
這正是把中階使用者和真正能讓 AI 穩定輸出商業可用結果的人區分開來的技術。模型學會的不只是「思考」,而是按你想要的風格思考,使用你的標題、評估標準和語氣。
試試這個提示結構:
我正在為團隊評估 SaaS 工具。對於我給你的每個工具,請從成本、整合深度、團隊學習曲線三個維度評分,並給出最終建議。
範例 1:
工具:Notion AI
成本:中等。每用戶每月 80 港元 AI 附加費。重度使用者才划算。
整合:強。連接 Slack、GitHub、Linear。工作區匯出功能良好。
學習曲線:低。行銷團隊已經在用 Notion。
建議:僅內容團隊採用,工程團隊不建議。
現在請評估:
工具:Linear AI
模型會產出完全依照你範例結構的回應。這比用普通自然語言問同一個問題、再期望得到有用格式,要可靠得多。
自我一致性:當你無法承擔錯誤答案時
答:自我一致性的意思是:對同一個提示生成多條思維鏈回應,再選出在多條鏈中出現次數最多的答案。如果你生成 5 至 10 條推理鏈,其中 7 條透過不同路徑得出同一個結論,那個答案的可靠性遠遠高於只跑一次的單一鏈。
這項技術解決了一個真實的弱點。單一思維鏈的某個推理步驟仍然可能出錯,然後自信地走到錯誤答案。整條鏈看起來合理,使用者就照單全收。自我一致性透過把模型輸出當成投票來避免這種情況。
實務流程是這樣:用同一個思維鏈提示跑 5 次,可以是分別的對話,也可以略微調高溫度參數。比較最終答案。如果 4 至 5 次答案一致,你就有一個有信心的答案。如果答案分歧,那這個問題其實比表面複雜,值得交由人類審核。Anthropic、OpenAI 和 Google 都已確認,自我一致性能在有單一正確答案的任務上顯著提升準確率。
對於高風險輸出,例如財務計算、法律摘要、招聘決策,自我一致性就是「AI 作為生產力工具」與「AI 作為公司負債」之間的差距。
CHAIN 框架:可重複的五階段結構
答:CHAIN 框架把思維鏈結構化為五個階段:Context(背景)、Hypothesis(假設)、Analysis(分析)、Inference(推論)、Narration(敘述)。一般的 CoT 告訴模型「怎麼思考」,CHAIN 卻告訴模型「先思考什麼」。其中最關鍵的是 Hypothesis 階段,強迫模型在推理之前先承諾一個具體、可驗證的命題。
實際操作上每個階段是這樣的。
Context:提供所有相關的資料、限制和目標。要具體。「我們 8 人的行銷團隊」比「我們團隊」好。
Hypothesis:提出一個具體、可驗證的命題。例如「我認為先做付費社交,再做 SEO 內容,能更快取得投資回報。」模型現在有一個明確立場去確認或挑戰。
Analysis:要求模型用上下文評估這個假設。什麼證據支持它?什麼證據反對它?
Inference:從分析中得出結論。假設正確、部分正確還是錯誤?
Narration:把結論翻譯成清晰、面向行動的回答,給原本的受眾看。
CHAIN 在策略性問題上特別有用,這類問題沒有單一「正確」答案,只有經得起辯護的建議。它產出的內容也更容易與同事分享,因為推理結構清楚、可以引用。
思維鏈悄悄失效的場景
答:思維鏈不是萬靈丹。它在創意寫作上會引入僵硬結構讓內容變差,在簡單問題上會拖慢回應,而且如果第一步推理是錯的,整條鏈會放大這個錯誤。請把它用於有可驗證正確答案、或需要結構化分析的任務,不要用於語氣導向的寫作或快速查詢。
三個每位實戰使用者都該知道的誠實限制。
第一,創意任務上,例如廣告文案、標題、敘事寫作,要求逐步推理常會產出乏味、機械的輸出。模型會解釋每個詞為什麼被選用,而不是真的去選出好詞。這類任務應該跳過 CoT,直接用創意提示。
第二,在簡單查詢上,例如「不丹的首都是哪裡?」CoT 只會拖慢模型、浪費 token。把它保留給多步驟問題。
第三,如果模型在第 1 步就鎖定錯誤假設,整條鏈會強化這個錯誤。這正是自我一致性派上用場的時刻。把任何單一鏈當作草稿而非最終答案,尤其是在高風險場景中。
今天就試:5 分鐘可測試的複製貼上提示
答:感受思維鏈差異最快的方法,是把同一個商業問題跑兩次:一次用直接提問,一次明確要求推理步驟。在下次 ChatGPT、Claude 或 Gemini 對話中使用下方範本。推理鏈通常會發掘 1 至 2 個你原本沒考慮到的因素。
背景:我在香港經營一家 12 人的顧問公司,計時收費 1,800 港元。資深員工使用率 75%,初級員工使用率 45%。我們考慮多請 2 位初級員工,以釋放資深員工時間,但擔心管理成本上升。
假設:聘請 2 位初級員工能將資深員工使用率提升至少 10 個百分點,並在 6 個月內回本。
任務:請逐步分析。
1. 計算目前各層級的有效收入。
2. 模擬資深使用率提升 10 個百分點在金錢上的意義。
3. 估算 2 位初級員工的成本,包含薪水、強積金、管理開銷。
4. 比較效益與成本,找出可能讓這個模型失效的假設。
5. 給出建議:是、否、或有條件支持。
如果你有多個模型的存取權限,把同一個提示在兩個模型各跑一次。比較兩條鏈:哪裡一致?哪裡分歧?分歧處就是你該集中自己判斷力的地方。
思維鏈是那種「看起來簡單到不像會有用」的技術,但你一旦真的用了,AI 輸出就從不穩定變成可信賴,生產力的提升是永久的。懂AI的冷,更懂你的難 UD 同行28年,讓科技成為有溫度的陪伴。如果你想把這項技術轉化成整個團隊能穩定運作的工作流程,那正是 UD 每天在幫企業做的事。
邁出下一步
你已經掌握了這項技術。下一步是測試自己在實戰使用者階梯上的位置,並把思維鏈整合進可重複的工作流程。UD 手把手帶你完成每一步,從提示設計到團隊推行,再到可靠度檢驗。