大多数人几乎在每个提示都加上「一步步思考」。它几乎成了人人都学过的唯一提示技巧。但在最新一代的推理模型上,这句指令现在反而可能让你的输出变差,而几乎没有人更新过这个习惯。
这个建议对 2023 年的模型是对的,但对 2026 年我们大多数人在用的推理模型,它已经悄悄过时。以下说明有什么改变了、怎样分辨你正在用哪种模式,以及让答案更干净的那个小调整。
什么是思维链(Chain-of-Thought)提示?
思维链(CoT)提示,是指令模型在给出最终答案前,用明确的中间步骤去推理,通常做法就是加上「一步步思考」。它曾是真正的突破:在较旧的模型上,它大幅提升复杂推理的准确度,例如在 MMLU-Pro 基准上有过提升 19 分的公开结果。
这个技巧的原理,是让模型把中间步骤显示出来,而不是直接跳到一个猜测。
那些可见的步骤做了两件事。它给模型空间去梳理本会略过的逻辑,也让你能在中途发现并修正错误的一步。
这就是为什么「一步步思考」传遍各处。对于一个没有内建推理能力的 2023 年模型来说,这几乎是免费得来的准确度。
为什么「一步步思考」现在反而会拖累推理模型?
因为推理模型本身已经在内部做思维链。像 OpenAI 的 o 系列、开启了 Extended Thinking 的 Claude,以及 Gemini 的 Thinking Mode,都是预设就会先推理再作答。再额外加上明确的 CoT 指令,可能造成过度解释与提示过拟合,2026 年华顿(Wharton)生成式 AI 实验室的报告把这与部分任务准确度下降连上关系。
你等于在要求模型把它本来自己做得更好的事,硬要说出声来。
那份华顿技术报告《The Decreasing Value of Chain of Thought in Prompting》发现,许多现行模型即使没被要求,也会自行进行 CoT 式推理。
若你仍硬把推理逼进可见输出,就会出现两种失效:模型对一个本该用精简内部运算的任务过度解释,并且拟合于解释格式,而非真正的问题结构。
这正是为什么 2026 年许多生产系统会抑制可见的思维链,同时仍让模型在内部推理。推理保留下来,被逼出来的旁白则去掉。
哪些是推理模型,哪些不是?
推理模型预设会在作答前先于内部推理;标准模型则是直接作答,除非你提示它放慢。这个分别决定了「一步步思考」是帮忙还是帮倒忙。分辨错了,你要么浪费推理模型的长处,要么让标准模型在猜。
你几乎总能从模型名称或模式看出正在用哪一种。
推理模型(略过明确 CoT):
--- OpenAI o 系列推理模型。
--- 开启了 Extended Thinking 的 Claude。
--- Gemini Thinking Mode。
标准模型(CoT 仍有帮助):
--- 用于快速回复、不作深思的对话模型。
--- 没有显示「思考」开关或推理标示的预设模式。
经验法则:如果界面显示「思考」「推理」或「延伸思考」的标示,代表模型已在做 CoT,你就不要再自己加。
不用「一步步思考」,那该怎么做?
给模型结构与约束,而不是叫它旁白。与其告诉推理模型该怎样想,不如告诉它一个好答案该包含什么:评分准则、格式、要检查的边界情况,以及最终输出你想要的详尽程度。你要指定目的地,而不是路线。
这把你的力气,从表演式推理转向有用的规格说明。
对推理模型,把「一步步思考」换成具体要求。列明决策准则、要求它把假设写出来,并指定你要的输出格式。
对标准的非推理模型,保留 CoT,但配上少样本(few-shot)示例,这在 2026 年仍是格式与一致性方面回报最高的技巧之一。
以下是一个为推理模型而写的复制粘贴提示。留意它完全没有「一步步思考」,只有结构:
试试这个提示:
你正在评估我们团队是否应该更换项目管理工具。不要把推理旁白出来。直接输出:(1)对一个 12 人市场团队最重要的三项决策准则;(2)各个选项就这些准则的评分,每个评分附一个具体理由;(3)你所作的任何假设,另外列出;(4)用一句话给出单一建议。对任何你不确定的地方要标示出来,而不是靠猜。
这给了推理模型一个要命中的目标,也让你得到一个可核对、结构良好的答案,而不必逼它把思考说出声。
思维链在什么时候仍然有用?
它在标准的非推理模型上,以及在你想检视逻辑的多步骤任务上,仍然有用。如果你用的是没有思考模式的快速对话模型,或你需要逐步审核一条计算或一段法律式论证,明确的 CoT 依然有价值。关键是让技巧配对模型。
CoT 是一件工具,不是一句该钉在每个提示上的预设。
当模型没有内建推理、而任务又有真正的中间步骤时,就保留 CoT,例如多部分的数学、结构化规划,或除错一连串决策。
当透明度本身就是重点时,也保留它。若你必须向客户或合规审核者展示过程,可见的推理就是一种优点,即使推理模型能默默得出答案。
当你在用推理模型、而你只在乎一个干净正确的最终答案时,就把它拿掉。这种情况下,结构与约束每次都胜过旁白。
怎样测试 CoT 对你的提示到底有没有帮助?
把同一个任务跑两次,一次加 CoT 指令,一次用结构化提示,然后比较最终答案。这个五分钟的 A/B 测试,比任何通则都告诉你更多,因为它反映的是你确切的模型、任务与质量标准。相信比较,胜过相信习惯。
测试把争论变成证据。
你今天就能跑的简单测试:
--- 选一个你常做的真实任务,例如摘要一份报告或草拟一份决策备忘。
--- 版本 A:加上「一步步思考」,跑三次。
--- 版本 B:拿掉 CoT,加上清晰准则与输出格式,跑三次。
--- 只比较最终答案,不比推理,留下始终更干净的那个版本。
对你的模型与任务而言胜出的那个,就是对你正确的答案,无论任何指南(包括本文)怎么说。
重点总结
「一步步思考」并没有死,但它不再是万用的预设。在我们现在大多数人用的推理模型上,模型本身已在内部做思维链,硬把它逼进输出可能让你损失准确度。把「下令走哪条路」换成「指定目的地」,再在你自己的任务上测试。
能跟上 AI 的人,是那些会随模型改变而更新习惯的人。懂AI,更懂你 UD相伴,AI不冷。
🧠 你的 AI 直觉有多敏锐?
知道一个技巧什么时候不再管用,正是区分一般用户与高手的判断力。用 UD 的 AI IQ 测试看看你的 AI 知识到底在哪个水平,再让我们手把手带你完成每一步,建立能跟上模型变化的提示习惯。