你正在决定,组织将以什么方式在生产环境中运行 AI。眼前有三种架构模式可选:在前沿模型上做提示工程、检索增强生成(RAG)、以及在自己的数据上微调模型。选错,就用港币 100 至 300 万元换来解决错误问题的系统。选对,同样的预算可以带来持久的生产力提升。
这是 2026 年香港的运营副总裁、信息技术总监、数字化转型主管,每个季度都要与 CIO 或 AI 供应商面对的对话。从外表看,技术选项几乎一样。但内里会产生截然不同的成本结构、截然不同的风险样貌、以及截然不同的长期弹性。
本文提供的是决策框架。它定义 RAG 与微调的真正含义、解释各自胜出的场景、并协助你在签供应商合同之前,为自己的具体用例选择正确的架构。
什么是 RAG?什么是微调?用企业听得懂的语言来说。
RAG(检索增强生成)是一种架构:大型语言模型在收到每个查询时,先从你自己的知识库中检索相关文件,然后基于这些文件生成答案。微调则是把预训练模型拿来,继续用你的特定数据训练它,让模型本身学会你需要的模式、风格、行为。
用最直白的比喻:RAG 像一位手持图书证的专家。每次你提问,系统都到图书馆找到相关文件,再根据找到的内容写答案。微调像一位你亲自培训多年的学徒。学徒已经内化你的风格与决策模式,凭记忆回答问题,不再翻书。
第三种模式经常与前两者混淆,那就是提示工程。它只调整系统提示与每次查询的措辞,没有外部检索、也没有重新训练模型。提示工程是最便宜的方式,也是大多数企业应该开始的地方,但当事实基础或行为一致性很重要时,它就会碰到明显上限。
RAG 在企业系统中如何实际运作?
RAG 系统有四个主要组成部分:包含企业内容的文件库、把文字转换为向量的嵌入模型、为每个查询找出相关内容的向量数据库、以及运用检索内容作为上下文撰写答案的语言模型。同一套架构可以处理你的客户服务知识库、合同库、内部政策,前提是每组文件都正确编列索引。
实际运作流程如下:员工输入问题;嵌入模型把问题转换为数值表达;向量数据库返回最相关的政策文件、合同、过往工单;语言模型同时收到问题与检索内容,然后生成答案。系统可以告诉使用者,这个答案具体是根据哪些文件得出的。对法律、金融、受监管行业而言,这项特性的价值极大。
对企业而言,优势非常具体。知识保持最新,更新政策文件后,下一次查询就会反映变动。系统可审计,每个答案都能追溯到具体来源。访问控制延续现有的文件权限,员工只会检索到自己原本就有权看到的内容。根据 Red Hat 2026 年企业 AI 指引,这也是受监管行业的主流架构,因为审计轨迹是内建的,不是事后加上去的。
微调如何运作?2026 年发生了什么变化?
微调是把预训练模型拿来,再以针对你组织的范例继续训练,让模型永久吸收你的风格、术语、决策模式、约束条件。2026 年,LoRA、QLoRA 等参数高效方法已将微调成本相比 2024 年降低约一个数量级。
2026 年的现实,与 2023 年的论述截然不同。三年前,微调一个前沿模型动辄需要六位数美元的 GPU 账单与数周的工程投入。如今,参数高效的微调通常需要港币 3 至 20 万元的算力、以日为单位(而非以周)完成、产出的也只是一个较小的「适配器文件」,而不是整个新模型。70 亿至 140 亿参数区间的小型语言模型,经过特定领域的微调后,已能在该任务上达到 2024 年需要 GPT-4 才能做到的水平。
当「行为」(而非「知识」)才是瓶颈时,微调才是正确选择。如果问题是模型需要写出你的专属风格、遵循你的特定决策树、用一致的语气拒绝某类请求,这些属于训练数据问题,最好用微调来解决。如果问题只是模型不知道你的产品名称、政策、上个月价格,那是知识问题,最好用 RAG 来解决。
企业何时该选 RAG 而非微调?
当知识频繁变动、当审计轨迹重要、当不同使用者有不同访问权限、或当你的训练数据量太少或太敏感不适合送进微调流程时,RAG 应该是预设架构。根据 Contextual AI 2026 年企业指南,RAG 是大多数企业 AI 用例的正确选择,因为大多数企业问题是知识问题,而非行为问题。
五个 RAG 胜出的具体情境:
客户服务知识库。产品目录、退货政策、运送规则每周变动。RAG 不需重新训练,就能让每个答案保持最新。
内部政策助理。人力资源政策、报销规则、合规程序随法规变动。能显示「这个答案是依据哪一版政策」的审计轨迹,在合规上极具价值。
合同审查与法律研究。每个查询都需要引用特定条款或案例。RAG 原生提供来源引用,微调则没有这项能力。
销售赋能工具。销售话术、案例研究、竞争定位持续演化。RAG 让市场部更新一份文件,第二天每场销售对话就能反映出来。
技术文件搜寻。工程知识库动辄数百万字。RAG 只检索与每个问题相关的部分,把延迟与成本控制在合理范围。
什么时候微调才是更好的选择?
当你需要一致的行为、特定的输出格式、狭窄领域的语言、或超越提示工程与 RAG 所能达到的可量度效能提升时,就该选择微调。最清晰的信号是:你能说出想要的行为,但无法只靠指令稳定产出这个行为。
五个微调胜出的具体情境:
高度结构化输出。如果每一份回应都必须遵循严谨结构,例如监管披露文件或保险理赔摘要,微调比提示工程能产出更稳定的格式。
专业术语。医疗、法律、工程领域使用的语言,前沿模型处理得并不完美。经微调的模型可以大规模匹配领域专家的词汇。
品牌语气与写作风格。如果面向客户的内容必须完全像你的组织的声音,微调把语气编码进模型本身,比靠提示指令更稳定。
对延迟敏感的应用。较小的微调模型可以在本地或边缘部署,响应时间以毫秒计,这是大型 RAG 系统难以达到的。
对成本敏感的高量任务。当微调后的小模型能胜任某项任务,每次调用的成本可比「前沿模型 + RAG」低 5 至 10 倍。对每月处理数百万次查询的组织,这个经济差距非常重要。
为什么 2026 年大多数企业架构都是 RAG 与微调的混合?
2026 年认真做企业 AI 的参考架构是混合式:经微调的模型负责一致行为与写作风格,RAG 负责提供当前知识与引用。微调模型是推理引擎,RAG 是动态知识层。
实务上的混合模式:香港一家地区银行对小型语言模型进行微调,覆盖内部客户沟通模式、监管披露用语、对受限话题的拒绝行为。同一个模型在推理时,再以 RAG 对接银行的政策库、产品目录、利率表。微调确保每个响应在语气、合规披露、超范围查询的拒绝上都正确。RAG 则确保每个产品事实、利率、政策条款都是最新且可引用。
这个模式现在已成金融服务、专业服务、受监管行业的标准。工程主管把它形容为「RAG 处理事实,微调处理行为」。这样的措辞在董事会对话中尤其有用,因为它把抽象权衡转化为非技术人员也能理解的语言。
对香港中型企业而言,真实成本如何比较?
对于 50 至 500 人的香港企业,纯 RAG 部署的建置成本通常落在港币 30 至 120 万元区间,视文件量与整合深度而定。微调计划会在此基础上再增加港币 20 至 60 万元,加上每季的重新训练成本。
2026 年实际部署的成本组成:
RAG 建置成本(一次性):文件导入与索引流程、向量数据库授权、嵌入模型选型、检索评估、应用整合、安全审查。对 100 万至 1000 万字的知识库,与一家有能力的本地伙伴合作,通常需港币 30 至 70 万元。
RAG 运营成本(每月):向量数据库托管、嵌入 API 调用、语言模型 API 调用、监控基建。对每月处理 3 万至 10 万次查询的组织,预期每月港币 1.5 至 8 万元。
微调建置成本(一次性):训练数据整理、训练基建、评估工具、模型部署。对基于强开源模型的参数高效微调计划,通常需港币 20 至 50 万元。
微调运营成本(每季):随着数据、产品、语言演化进行重新训练。每次重新训练周期预期港币 3 至 12 万元。
成本与效益的对照比绝对成本更重要。根据麦肯锡 2025 年 State of AI 报告,将 AI 投资与结构化生产力追踪搭配的组织,在目标工作流上于 12 个月内呈现出 15% 至 40% 的可量度改善。混合架构建置时间较长,但透过更高品质的输出与规模化后的更低单次成本,能带来复利式回报。
香港企业在架构选择上最常犯的错误是什么?
最常见的错误是该用 RAG 却选了微调,通常是因为供应商偏好金额较大的合同。第二常见的错误是该用提示工程却选了 RAG,把能力与预算白白浪费。
五个应该避免的错误:
跳过提示工程基线。在投入 RAG 或微调之前,先做两到四周的结构化提示工程实验。很多看似需要 RAG 的用例,靠一份强提示模板就能解决。
建 RAG 却不做检索评估。检索错文件的 RAG 系统,会用优美的格式自信地写出完全错误的答案。检索评估,通常使用一组独立保留的「问题与文件」配对,是不可妥协的环节。
用低品质数据微调。微调会放大训练集中的一切。直接用既有工单、邮件、文件做微调而不加整理的组织,常常做出一个自信复制员工过往错误的模型。
忽略数据驻留与隐私。RAG 与微调都涉及敏感企业数据。受《个人资料条例》规管的香港组织,必须查清向量储存在哪里、训练在哪里发生、训练后模型内留下什么。
低估维护负担。RAG 文件索引会漂移。微调模型会变旧。两者都需要持续投资,而供应商在销售阶段往往低调处理这部分。
给企业领导层的策略决策框架
三个问题能切穿大部分架构对话。先用提示工程开始,问:对这个用例,效果是否「足够好」?答案是「是」,就上线并在六个月后重新审视。答案是「否」,再问:差距是知识问题还是行为问题?知识问题用 RAG。行为问题用微调。大多数认真的企业系统最终会结合两者,但这个结合应该由证据引导,而非由供应商偏好引导。
2026 年更深层的策略转变是:AI 架构不再是一次性决定。今年正确的客户服务助理架构,未必是明年正确的选择,因为模型能力、成本、监管期望全都在动。能在 6 至 12 个月周期内持续评估、部署、再评估的企业领导者,会胜过那些根据今天快照就锁死长期供应商合同的人。
UD 用 28 年时间,陪伴香港企业走过一个又一个这种规模的科技决定。我们看过足够多的供应商周期,知道在复杂架构对话中最温暖的安心感,来自一位早已熟悉这些权衡的伙伴。懂 AI 的冷,更懂你的难,UD 同行 28 年,让科技成为有温度的陪伴。
准备好为自己的 AI 架构决策建立信心?
掌握框架之后,下一步是把它对应到你的具体用例、数据、限制条件。我们的 AI Ready Check 评估会把你最重要的三个 AI 用例对应到正确的架构,附上成本区间与决策逻辑,让你能直接带进下一次预算对话。我们手把手带你完成每一步,由首次用例工作坊到董事会层级的架构建议。