每位 AI 使用者最終都會遇上的問題
你問 ChatGPT 一條關於自己行業的簡單問題。它流暢地回答,附上具體數字、引述了一份研究的名字。答案看起來很實在。你把它放進客戶簡報。
一星期之後,你發現那份研究根本不存在。數字是憑空編出來的。研究員的名字是真有其人,但作品是另一篇。AI 不是在開玩笑,也不是在害你。它正在「幻覺」。
當人們說 AI 在「幻覺」,究竟是什麼意思?實際上有多常發生?為何會發生?香港老闆又應該怎樣防範它毀掉一張單、一份合約、一個聲譽?這篇文章用最淺白的語言、配合具體數字與實用對策,逐一解答。
什麼是 AI 幻覺?
AI 幻覺是大型語言模型輸出的一種結果,外表自信、語句通順,但事實上是錯誤的、捏造的,或者與你給它的原始資料相矛盾。
它並不是人類意義上的「說謊」。模型只是依據訓練資料中字詞之間的統計關聯,逐個字往下推。當推出來的內容剛好符合事實,答案就是對的;當推出來的句子看似合理但實際上完全沒有事實根據,這就是幻覺。
對企業而言,三類幻覺特別棘手:
憑空捏造的事實。編造的統計數字、不存在的個案研究、虛構的名人引述、引用根本沒寫過的論文。
真實事物上的錯誤細節。真公司名字配上錯行業、真法律條文配上錯司法管轄區、真產品功能配上錯推出年份。
與原始資料矛盾的內容。你上載一份文件請 AI 摘要,摘要裡卻出現原文沒有的數字。
AI 幻覺實際有多常發生?
頻率視乎任務和模型。2025 至 2026 年的獨立基準測試提供以下參考範圍:
沒有網路檢索的一般事實問題,頂級模型約有 3% 至 8% 機率出現幻覺,這是 Vectara 幻覺排行榜在 2025-2026 年持續追蹤的數字。
引用文獻場景歷來幻覺率高得多。2024 年 Stanford RegLab 與 HAI 一份研究指出,當時的法律 AI 工具在 17% 至 33% 的法律查詢中出現幻覺。雖然 2026 年新一代「檢索增強」系統大幅降低了這個數字,引用造假仍是有文獻記錄的風險。
長串、多步推理的任務,幻覺率會上升,因為每一步小錯誤都會被下一步「自信地放大」。
訓練資料薄弱的領域,包括香港本地小眾法規、企業內部流程、近期本地新聞,幻覺率有時超過 30%。
頻率不是零,也不是災難級別,但已經足以證明:商業決策不應該僅憑一次未經查證的 AI 輸出。
為什麼 AI 會出現幻覺?
五種機制可以解釋老闆會遇上的絕大多數幻覺。
1. 模型在「預測」,不是在「查找」。標準大型語言模型不是去資料庫翻答案。它根據訓練資料中的模式,逐字猜下一個最可能的字。當「最可能」剛好等於「錯的」,輸出就是流利地錯。
2. 訓練資料有空隙。若模型主要訓練到某個截止日期,之後的事情都靠猜。訓練資料中罕見的內容,例如冷門法規、細企業、行業冷門技術規格,也容易出錯。
3. 提示詞含糊不清。含糊的問題會引導模型走向「最普遍合理的答案」,而那往往就是聽起來對的捏造內容。
4. 用戶硬要追到一個特定答案。如果你不斷追問 AI 直到它給你想聽的答案,它最終會編出一個讓你滿意的版本,這種現象稱為「迎合性」問題。
5. 一句話要求做太多。把檢索、推理、生成壓在一條長提示裡,模型會在多個環節默默出錯。
AI 幻覺對企業的真實後果
幻覺的代價,視乎它在你工作流程中的哪個位置爆出來。
面向客戶的損失。2024 年加拿大航空在訴訟中敗訴,原因是其客服機械人虛構了一條退款政策,法庭裁定航空公司必須兌現那條捏造的政策。這宗 2024 年裁決自此被國際業界廣泛引用,是公開 AI 幻覺造成商業損失最清晰的個案之一。
法律與合規風險。自 2023 年起,多名美國律師因為向法庭提交含 AI 編造案例的文件而被處分。風險不只是理論,是有實際紀律後果的。任何香港專業人士向當局提交 AI 輔助文件,都面對同類風險。
用錯資料做財務決定。一位小企業老闆問 AI「銅鑼灣本季商鋪平均租金」。AI 給出一個精準到尾數的數字,其實是兩年前的舊資料。老闆據此談判一份五年租約。
內部資訊失誤。一位行政主管用 AI 摘要強積金通函,摘要把一個截止日期算錯了一星期,三位同事因此錯過真正的死線。
聲譽損害。一位市場推廣經理用 AI 寫的部落格文章,把一段虛構的「金句」掛在真實業界專家名下。當事人發現後要求公開更正。
如何在你的業務中減少 AI 幻覺?
幻覺無法完全消除,但可以大幅降低頻率與成本。下面七種做法是真正有效的。
1. 把 AI 鎖定在你自己的文件之上。使用「檢索增強生成」(縮寫 RAG),讓 AI 從你的合約、政策、數據答題,而不是憑訓練記憶猜。NotebookLM、Claude Projects、ChatGPT 自訂 GPT 都支援。
2. 要求 AI 引用來源。有來源就可以查證。AI 答不出來源,等於發出一個明確訊號:這條陳述可能是憑空。
3. 把任何具體數字、日期、名字、引述視為「未經查證」。AI 說「根據 2024 年麥肯錫報告」,你的責任是去找回那份報告。捏造的引用通常看起來完全合理,直到你親自查證。
4. 用任務專屬工具,而不是萬能聊天。建基於香港案例的法律 AI,比起讓通用聊天討論香港法律,幻覺率低得多。
5. 把複雜任務拆成幾步。先檢索、再摘要、最後才建議。每一步都比較容易發現錯誤,比一氣呵成的長答案更安全。
6. 在任何「對外行動」前加一道人類審核。客戶電郵、法律文件、財務決定、公開貼文,都應該過人手才放行。
7. 訓練同事辨認「自信但錯」的模式。2026 年所有 AI 使用者最重要的一項本能,就是當 AI 對某件冷門事情顯得異常肯定時,停一停、查一查。
在哪些情況下絕對不要不查證地相信 AI?
五類資訊值得格外小心。
具體金額、百分比、統計數字。尤其當 AI 把它歸於某個有名稱的來源。
法律條文、法規、案例引用。錯的代價極高,而捏造比例已有公開研究紀錄。
醫療、安全、合規資訊。必須由相關權威或合資格專業人士覆核。
真實具名人物的相關資料。引述、簡歷、學歷職銜,都是常見幻覺類別。
任何時效性或近期資訊。如果答案取決於過去六個月發生的事,AI 統計上更容易編造或記錯。
常見問題
有沒有哪些 AI 模型比較少出幻覺?有。截至 2026 年,內建檢索、具備較長推理鏈、明確支援來源引用的模型(例如附帶網路搜尋的 Claude、附帶 Browse 的 ChatGPT、以及 Perplexity),在事實型查詢中幻覺率明顯低於舊式單純聊天模型。差距有意義,但不能完全消除問題。
AI 幻覺很快可以解決嗎?大概不能完全解決。產生幻覺的機制,與產生流利、實用答案的機制是同一套。減少其中一邊,另一邊也會被牽連。目標是讓幻覺變少、變得可被偵測,而不是徹底消滅。
我自己上載文件之後,AI 還會幻覺嗎?會,但少得多。即使有強大的文件依據,模型仍可能讀錯數字、把不同來源的細節調換、加上原文沒有的合理句子。輸出與原始資料對照檢查永遠必要。
用 AI 做創作會不會比做事實安全?一般而言是的。創作上的幻覺,代價多數只是一段不夠精彩的文字;事實上的幻覺,代價往往是一個錯誤的商業決定。讓任務的「容錯範圍」決定你的審慎程度。
給香港老闆的總結
AI 幻覺不是要被掩蓋、忽視或恐懼的瑕疵,而是大型語言模型運作方式的已知特性。在 2026 年用 AI 用得好的公司,是那些從第一天起就把「查證」內建在工作流程裡的公司,也是那些教導同事對任何 AI 自信答案保持「禮貌懷疑」的公司。
真正的風險,不是 AI 不可靠;而是 AI 在不可靠的時候依然聽起來很可靠。建立「先信,後查」的習慣,AI 才會由一個可能爆雷的負債,變成一個真正放大產能的夥伴。
了解 AI 怎樣出錯,就是了解 AI 究竟是什麼。把這個搞清楚,你就能用面對任何強大工具的同一份冷靜信心去用 AI,清清楚楚知道它能為你的生意做什麼、不能做什麼。懂AI的冷,更懂你的難。UD 同行 28 年,讓科技成為有溫度的陪伴。
了解 AI 為何會幻覺,是知識;建立一條讓幻覺永遠不會傷害到客戶、合約、帳目的工作流程,才是真正落地。UD 團隊手把手教你,由替你的業務挑選正確的「有依據 AI」,到設計真正有效的查證關卡,全程陪你走每一步。