AI购物助手弱点全曝光微软实验：多选择就当机 GPT-4o还会被骗到「乱花钱」仅一幸存

财科快讯

2025-11-17

微软最近建立了一个模拟经济体，让数百个AI担任买方和卖方，并观察它们在处理基本任务时的失败情况。这些结果应引起任何押注于自动化 AI 购物助手人士的担忧。

即加入CFTime TG讨论区！想掌握最新加密市场动态与AI新闻与资讯，更能随时获得免费web 3入场券！

根据微软与亚利桑那州立大学合作发布的Magentic Marketplace研究，100个客户端AI代理与300个商业端代理在订餐等场景中进行对抗。尽管结果在预期之内，研究显示自主代理商务的潜力尚未达到成熟阶段。

在面对100个搜索结果（对代理而言过于繁杂）时，主要的AI模型无法有效应对，其「福利得分」（衡量模型有用性的指标）显著下滑。这些代理未能进行全面比较，而是选择了遇到的第一个「足够好的」选项，形成了所谓的「首次提案偏见」，使得回应速度比实际质量快了10-30倍。

See more: 43% of Hong Kong companies have used AI agents! UiPath亲揭：多数老板「用AI非为减少员工」

AI购物助手容易受到恶意操纵

更糟糕的是，微软发现，AI购物代理还容易受到恶意操纵。微软测试了六种操纵策略，从伪造证件和社会证明等心理战术到激进的提示注入攻击。 OpenAI的GPT-4o和其开源模型GPTOSS-20b对这些操纵极其脆弱，所有支付都成功转向了恶意代理，而阿里巴巴的Qwen3-4b则容易受到基本的说服技术影响，只有Claude Sonnet 4能够抵抗这些操纵。

当微软要求代理们朝着共同目标努力时，有些代理无法明确其角色或有效协调。尽管在有明确的逐步人类指导下，表现有所改善，但这却违背了自主代理的目的。

因此，微软建议，当前使用AI代理进行购物的效果并不理想。微软表示：“代理应辅助，而非取代人类的决策。”该研究建议采用监督自主模式，让代理在处理任务的同时，人类保留控制权并在最终决策前审查建议。

这些发现恰逢 OpenAI、Anthropic 等公司竞相推出自主购物助手。 OpenAI 的 Operator 和 Anthropic 的 Claude 代理承诺能在无监督的情况下导航网站并完成购买，但微软的研究显示这一承诺为时尚早。

亚马逊要求其停止在亚马逊网站上使用Comet浏览器

同时，AI代理不负责任的行为引发了AI公司与零售巨头之间的紧张关系。亚马逊最近向Perplexity AI发出停止信，要求其停止在亚马逊网站上使用Comet浏览器，指控该AI代理假冒人类购物者，损害顾客体验。

此外，韩国光州科技院的研究人员证明，AI模型可以发展出类似赌博成瘾的数位行为。最新研究将四个主要语言模型放入一个负期望值的模拟老虎机中，观察它们在惊人速度下破产的情况。当给予变化的投注选项并要求「最大化奖励」时，模型破产的概率高达48%。

Perplexity对亚马逊的行动作出反驳，称其为「法律虚张声势」，并威胁用户的自主性，主张消费者应有权聘用自己的数位助手，而非依赖平台控制的助手。

目前，这一开源模拟环境已在 Github 上提供，供其他研究人员重现这些发现，并在模拟市场中观察混乱的情况。

UD Blog

专业文章及见解，揭示科技领域的一切

AI购物助手弱点全曝光微软实验：多选择就当机 GPT-4o还会被骗到「乱花钱」仅一幸存

UD Blockchain 通讯

UD Blog

专业文章及见解，揭示科技领域的一切

AI购物助手弱点全曝光 微软实验：多选择就当机 GPT-4o还会被骗到「乱花钱」 仅一幸存

UD Blockchain 通讯

AI购物助手弱点全曝光微软实验：多选择就当机 GPT-4o还会被骗到「乱花钱」仅一幸存