有一种提示技术叫做思维链(Chain-of-Thought,简称 CoT),根据 Google Brain 的原始研究,它能将 AI 在数学和逻辑任务上的推理准确率提升 40 至 60 个百分点。大多数中阶 AI 使用者都听过它,但几乎没有人用对。修正的关键只有六个字,而且在 2026 年所有主流前沿模型上都有效,包括 GPT-5.4、Claude Opus 4.7 和 Gemini 3.1 Pro。
这篇文章会带你了解思维链在语言模型内部实际做了什么,如何运用零样本与少样本两种变体,为什么自我一致性(Self-Consistency)在高准确率场景中至关重要,以及这项技术在哪些情境下会悄悄失效。读完之后,你会得到一个可以直接复制贴上的提示范本,在下次使用 ChatGPT 或 Claude 时立即测试。
思维链为何真的有效
答:思维链提示法强制语言模型在输出最终答案之前,先生成中间推理步骤。由于模型在生成下一个词时,会以已经产生的每一个词作为上下文,因此把推理过程写出来,等于提供更多相关上下文供模型参考,这在多步问题上能将准确率提升 40 至 60 个百分点(Wei et al., Google Brain, 2022)。
标准提示要求一个答案,模型会用任何符合模式的方式直接跳到结论。在简单任务上没问题,但只要涉及多重条件、计算或比较,模型常会漏掉一个步骤,或把焦点错置在不重要的细节上。
思维链改写了规则。你要求模型展示其推理过程,然后再给出结论。每一个推理步骤都成为模型生成下一步时的上下文。输出会变慢、变长,但推理过程是可审视的,而且在有正确答案的任务上,准确率会明显上升。
零样本 CoT:六个字的升级
答:零样本思维链是最简单的版本。你只需在提示末尾加上一句指令,例如「让我们一步一步思考」。不需要任何范例。这个触发短句本身就能让模型在最终答案前产生一段推理链,是任何非琐碎任务都应该预设使用的技术。
研究员 Kojima et al.(2022)证明,光是在提示末尾加上「Let's think step by step」,就能将 GPT-3 在小学数学题上的准确率从 17.7% 提升到 78.7%。这个触发短句后续经过微调,但核心原理在 2026 年所有前沿模型上仍然成立。
试试这个提示:
一位客户的 4 周营销活动预算为 50,000 港元,他想将 60% 投放于 Meta 广告、25% 投放于 Google 搜寻广告、15% 投放于 LinkedIn。Meta 平均 CPL 为 120 港元、Google 为 200 港元、LinkedIn 为 450 港元。他应该预期能取得多少潜在客户?以 200 个潜在客户为目标,哪个渠道的成本效益最高?
让我们一步一步思考。
模型接下来会列出预算分配、计算每个渠道的潜在客户数量,然后评估成本效益。推理链本身就是让你揪出计算错误、看见真正答案的关键。
少样本 CoT:教模型你想要的推理风格
答:少样本思维链是进阶版。你不再依赖触发短句,而是在提示中提供 2 至 3 个完整的工作范例,每个范例包含输入、推理过程和答案。模型会在处理你真正的问题时,模仿这个推理模式。当你重视的不只是答案正确性,更是推理风格时,请用这个方法。
这正是把中阶使用者和真正能让 AI 稳定输出商业可用结果的人区分开来的技术。模型学会的不只是「思考」,而是按你想要的风格思考,使用你的标题、评估标准和语气。
试试这个提示结构:
我正在为团队评估 SaaS 工具。对于我给你的每个工具,请从成本、整合深度、团队学习曲线三个维度评分,并给出最终建议。
范例 1:
工具:Notion AI
成本:中等。每用户每月 80 港元 AI 附加费。重度使用者才划算。
整合:强。连接 Slack、GitHub、Linear。工作区汇出功能良好。
学习曲线:低。营销团队已经在用 Notion。
建议:仅内容团队采用,工程团队不建议。
现在请评估:
工具:Linear AI
模型会产出完全依照你范例结构的回应。这比用普通自然语言问同一个问题、再期望得到有用格式,要可靠得多。
自我一致性:当你无法承担错误答案时
答:自我一致性的意思是:对同一个提示生成多条思维链回应,再选出在多条链中出现次数最多的答案。如果你生成 5 至 10 条推理链,其中 7 条透过不同路径得出同一个结论,那个答案的可靠性远远高于只跑一次的单一链。
这项技术解决了一个真实的弱点。单一思维链的某个推理步骤仍然可能出错,然后自信地走到错误答案。整条链看起来合理,使用者就照单全收。自我一致性透过把模型输出当成投票来避免这种情况。
实务流程是这样:用同一个思维链提示跑 5 次,可以是分别的对话,也可以略微调高温度参数。比较最终答案。如果 4 至 5 次答案一致,你就有一个有信心的答案。如果答案分歧,那这个问题其实比表面复杂,值得交由人类审核。Anthropic、OpenAI 和 Google 都已确认,自我一致性能在有单一正确答案的任务上显著提升准确率。
对于高风险输出,例如财务计算、法律摘要、招聘决策,自我一致性就是「AI 作为生产力工具」与「AI 作为公司负债」之间的差距。
CHAIN 框架:可重复的五阶段结构
答:CHAIN 框架把思维链结构化为五个阶段:Context(背景)、Hypothesis(假设)、Analysis(分析)、Inference(推论)、Narration(叙述)。一般的 CoT 告诉模型「怎么思考」,CHAIN 却告诉模型「先思考什么」。其中最关键的是 Hypothesis 阶段,强迫模型在推理之前先承诺一个具体、可验证的命题。
实际操作上每个阶段是这样的。
Context:提供所有相关的资料、限制和目标。要具体。「我们 8 人的营销团队」比「我们团队」好。
Hypothesis:提出一个具体、可验证的命题。例如「我认为先做付费社交,再做 SEO 内容,能更快取得投资回报。」模型现在有一个明确立场去确认或挑战。
Analysis:要求模型用上下文评估这个假设。什么证据支持它?什么证据反对它?
Inference:从分析中得出结论。假设正确、部分正确还是错误?
Narration:把结论翻译成清晰、面向行动的回答,给原本的受众看。
CHAIN 在策略性问题上特别有用,这类问题没有单一「正确」答案,只有经得起辩护的建议。它产出的内容也更容易与同事分享,因为推理结构清楚、可以引用。
思维链悄悄失效的场景
答:思维链不是万灵丹。它在创意写作上会引入僵硬结构让内容变差,在简单问题上会拖慢回应,而且如果第一步推理是错的,整条链会放大这个错误。请把它用于有可验证正确答案、或需要结构化分析的任务,不要用于语气导向的写作或快速查询。
三个每位实战使用者都该知道的诚实限制。
第一,创意任务上,例如广告文案、标题、叙事写作,要求逐步推理常会产出乏味、机械的输出。模型会解释每个词为什么被选用,而不是真的去选出好词。这类任务应该跳过 CoT,直接用创意提示。
第二,在简单查询上,例如「不丹的首都是哪里?」CoT 只会拖慢模型、浪费 token。把它保留给多步骤问题。
第三,如果模型在第 1 步就锁定错误假设,整条链会强化这个错误。这正是自我一致性派上用场的时刻。把任何单一链当作草稿而非最终答案,尤其是在高风险场景中。
今天就试:5 分钟可测试的复制贴上提示
答:感受思维链差异最快的方法,是把同一个商业问题跑两次:一次用直接提问,一次明确要求推理步骤。在下次 ChatGPT、Claude 或 Gemini 对话中使用下方范本。推理链通常会发掘 1 至 2 个你原本没考虑到的因素。
背景:我在香港经营一家 12 人的顾问公司,计时收费 1,800 港元。资深员工使用率 75%,初级员工使用率 45%。我们考虑多请 2 位初级员工,以释放资深员工时间,但担心管理成本上升。
假设:聘请 2 位初级员工能将资深员工使用率提升至少 10 个百分点,并在 6 个月内回本。
任务:请逐步分析。
1. 计算目前各层级的有效收入。
2. 模拟资深使用率提升 10 个百分点在金钱上的意义。
3. 估算 2 位初级员工的成本,包含薪水、强积金、管理开销。
4. 比较效益与成本,找出可能让这个模型失效的假设。
5. 给出建议:是、否、或有条件支持。
如果你有多个模型的存取权限,把同一个提示在两个模型各跑一次。比较两条链:哪里一致?哪里分歧?分歧处就是你该集中自己判断力的地方。
思维链是那种「看起来简单到不像会有用」的技术,但你一旦真的用了,AI 输出就从不稳定变成可信赖,生产力的提升是永久的。懂AI的冷,更懂你的难 UD 同行28年,让科技成为有温度的陪伴。如果你想把这项技术转化成整个团队能稳定运作的工作流程,那正是 UD 每天在帮企业做的事。
迈出下一步
你已经掌握了这项技术。下一步是测试自己在实战使用者阶梯上的位置,并把思维链整合进可重复的工作流程。UD 手把手带你完成每一步,从提示设计到团队推行,再到可靠度检验。