你真正要做的決定是什麼
你正在抉擇:是把企業 AI 建基於從你自己系統中即時擷取的文件之上、為模型在你自己的專屬資料上做微調,還是兩者並用。這個決定,會直接影響你的 token 帳單、你的資料治理姿態、上線到生產所需的時間,以及你需要招募的人才類型。
本文不會告訴你哪一個比較好,因為問題本身就問錯了。本文會給你一套決策框架,從四個維度為這個選擇評分:成本、針對你自己資料的準確度、治理適配度,以及上線速度。
讀完之後,你應該能判斷在你眼前這個具體用例上,RAG、微調,還是兩者並用的混合架構最為合適,以及在投入預算前,要先在試點中驗證些什麼。
什麼是 RAG(檢索增強生成)?
檢索增強生成(RAG)是一種架構模式:一個通用的大型語言模型,在每次查詢時,被授予存取你自己文件的權限。系統會從向量資料庫中擷取與問題最相關的段落,然後要求模型「只能」根據這些段落作為脈絡來回答。
結果是:AI 引用的是你的合約、你的產品手冊、你的政策文件庫,或你的客戶歷史紀錄,而不再單靠模型訓練時的資料來生成回答。
RAG 是 2026 年企業最常見的架構模式,因為它同時解決了「時效性問題」(你可以在幾分鐘內更新文件索引)與「引用問題」(每一個回答都可以指向一個來源)。
什麼是微調?
微調是一種架構模式:你以一個預訓練好的大型語言模型為基礎,繼續以你自己的資料對它進行訓練。模型內部的權重會被改變,因此最終得到的模型,就算沒有外部脈絡,也會以你的語氣說話、以你的格式輸出、以你領域的慣例運作。
現代的參數高效方法,例如 LoRA(低秩適配)與 QLoRA,自 2024 年以來已把微調成本壓低一個數量級。根據 Hugging Face 2026 年 3 月發表的業界報告,針對一個 70 億參數模型、一個用例做完整微調的中位成本,在過去 18 個月內由約 8 萬美元跌至 8,000 美元以下。
當「行為」是要求,而非「知識」是要求時,微調才是合適的工具。它教會模型「該怎樣回答」,而不是「該知道什麼」。
RAG 與微調在實際運作中有何分別?
RAG 改變的是「模型看到什麼」。微調改變的是「模型本身是什麼」。RAG 屬於鬆耦合:下個季度你想換掉底層模型,擷取流水線仍可繼續運作。微調屬於緊耦合:換掉基底模型,就等於要重新做一次微調。
這種營運差異很關鍵。RAG 較容易更新知識、較容易審計(每個回答都附來源),上線也較快。微調較難更新、較難審計(你不易看出模型為什麼這樣回答),但對於格式、語氣、決策邏輯這些行為模式,輸出會比 RAG 更穩定一致。
根據 IDC 於 2026 年發表的企業 AI 架構調查,香港已上線企業中有 64% 把 RAG 作為主要架構。純微調僅佔 11%,其餘 25% 採用混合架構。
2026 年 RAG 與微調的成本如何比較?
RAG 建置成本較低,但運行成本較高。微調建置成本較高,但運行成本較低。兩者的成本交叉點,取決於查詢量。
對於每月 10 萬次查詢的典型企業部署,RAG 的成本主要由推理(每個查詢都會把擷取到的脈絡塞入提示詞,導致 token 數量上升)與向量資料庫的託管費用所主導。根據 a16z 於 2026 年發表的企業 AI 成本分析,這個規模下 RAG 基礎設施的月度開銷,大約落在 3,000 至 8,000 美元之間。
微調則把成本前置。你只付一次 5,000 至 15,000 美元做微調,之後每次查詢的 token 數量較低(提示詞中沒有擷取脈絡)。對於每月查詢超過 50 萬次的高量用例,微調通常在六個月內就會變得比 RAG 便宜。
對你自己的資料,哪一種架構在準確度上勝出?
準確度的答案,完全取決於你最不能容忍的失敗模式是什麼。如果你的業務無法容忍模型「編造事實」(引用、價格、政策條文),RAG 勝出,因為每一個回答都能基於擷取到的來源,並向使用者展示。
如果你的業務無法容忍格式不一致或品牌語氣不對(受監管的對外溝通、結構化的法律輸出、標準化的報告),微調勝出,因為這些行為模式已被編碼進模型本身。
根據 Stanford HAI 於 2025 年 12 月發表的企業 AI 部署評估,相對於純提示詞的基準,採用 RAG 的系統能把事實層級的幻覺率降低 60% 至 80%。而經過微調的系統,在相同資料上把格式與語氣錯誤降低了 70% 至 90%。
兩種架構對資料治理與個人資料條例分別意味著什麼?
RAG 把敏感資料留在你的向量資料庫中,只在實際查詢需要時才被擷取。這種「分離」使它更容易滿足香港個人資料私隱專員公署的「資料最少化原則」,也更容易在收到客戶刪除請求時履行義務,因為你只需把該客戶的文件從索引中移除即可。
微調則把訓練資料中的模式「燒進」模型權重。你無法簡單地讓模型「遺忘」某一份特定文件,除非重新訓練。對於受個人資料條例規管的資料,這就創造出「被遺忘權」的複雜難題,必須在設計時就審慎處理。
PCPD 於 2025 年更新的《人工智能:個人資料保障模範框架》明確處理了這一點:使用個人資料進行微調的機構,必須能夠示範如何移除個別記錄,這通常代表需要保留原始訓練資料集,並定期重新微調。
什麼是混合架構?什麼時候應該採用?
混合架構:以微調訓練模型的「行為模式」(如何回答、什麼格式、什麼語氣),同時以 RAG 注入模型回答所需的「即時事實」(今天什麼是真的)。在生產等級的企業系統中,多數會在第二年自然收斂到這個架構。
根據 Gartner 於 2026 年發表的架構報告,能在上線後撐過 18 個月的企業 AI 系統中,有 53% 在第 24 個月時已轉為混合架構,即使它們最初是純 RAG 或純微調。
當你「兩者都需要」時,請採用混合:穩定一致的行為(微調),加上具引用價值的最新事實(RAG)。代價是營運複雜度:你會同時管理兩條流水線,團隊需要同時具備資料工程師與機器學習工程師。
決策框架:用四條問題為每個用例評分
為每一個候選用例,按以下四條問題評分。第一:底層知識多久更新一次?若是每週或更頻繁,選 RAG。若是每月或更慢,兩者皆可。
第二:失敗模式是事實錯誤,還是格式錯誤?事實錯誤代表 RAG,格式錯誤代表微調,兩者都有則代表混合。
第三:查詢量是多少?每月低於 10 萬次,選 RAG。每月高於 50 萬次且行為穩定,微調在經濟上開始具吸引力。介於兩者之間,請同時建模並以三年總擁有成本為準。
第四:個人資料的監管暴露有多重?涉及個人資料條例或金融規管資料,預設傾向 RAG,因為刪除與審計都更容易。
三個香港企業情境
一家香港專業服務公司,要部署內部合約審閱助手,應該選 RAG。知識會頻繁更新(每天有新合約進來),失敗模式是事實錯誤(條款引用錯誤),查詢量不高,且資料是客戶機密。四個維度上 RAG 都勝出。
一家地區物流業者,要以三種語言生成貨件狀態通訊,應該選微調。知識相對靜態(物流網絡不會每天變動),失敗模式是格式與語氣(面向監管機構的溝通),查詢量極高(每月數百萬次通知),而且資料屬於營運性質而非個人資料。
一家零售銀行,要部署面向客戶的金融問答助手,應該選混合架構。它需要 RAG 為答案接駁當前的產品條款與客戶的帳戶資料,也需要微調以執行金管局負責任銀行指引所要求的特定語言模式。
在投入前,應該在試點中驗證什麼?
在簽下任何多年合約之前,請執行一個結構化的八週試點。第一至二週:以書面形式定義哪些「失敗模式」會令這個項目在生產中失敗。第三至四週:在最小範圍內,同時建立一個 RAG 版本與一個微調版本的同一用例。
第五至六週:對 200 條真實問題的保留測試集,盲評兩個版本的輸出,由實際使用者進行評分。第七至八週:為兩個版本建模三年的總擁有成本,包含基礎設施、模型授權與工程團隊成本。
試點的最終產出,是「一頁紙」:包含計分卡與決定。如果無法壓縮在一頁之內,你還沒有真正做完這個決定。
結語:從「架構辯論」轉向「架構決定」
RAG 對微調的辯論,是一個錯誤的框架。兩者都是工具。正確的問題是:在你眼前這個用例的失敗模式、查詢量與監管姿態下,哪一個工具(或哪一個組合)最合適。
2026 年能準時把 AI 推上生產的企業,並不是挑選了當下最流行架構的那些,而是進行了結構化八週試點、對兩個選項在四個維度上評過分、並向董事會提出可被辯護的決策的那些。
懂AI的冷,更懂你的難 — UD 同行28年,讓科技成為有溫度的陪伴。
下一步:用預建的 AI 員工,測試最適合你的架構
你不需要從零開始建構這個架構決定。UD 的 AI Employee Hub 讓你可以透過已就緒部署的市場部、人力資源部、客戶服務與財務 AI 員工,分別試點 RAG、微調與混合架構,架構決策已預先做好並經過驗證。我們手把手帶你完成每一步,由「為你的資料挑選正確架構」到「以董事會能接受的方式量度成效」。