AI购物助手弱点全曝光 微软实验:多选择就当机 GPT-4o还会被骗到「乱花钱」 仅一幸存
微软最近建立了一个模拟经济体,让数百个AI担任买方和卖方,并观察它们在处理基本任务时的失败情况。这些结果应引起任何押注于自动化 AI 购物助手人士的担忧。
即加入CFTime TG讨论区!想掌握最新加密市场动态与AI新闻与资讯,更能随时获得免费web 3入场券!
根据微软与亚利桑那州立大学合作发布的Magentic Marketplace研究,100个客户端AI代理与300个商业端代理在订餐等场景中进行对抗。尽管结果在预期之内,研究显示自主代理商务的潜力尚未达到成熟阶段。
在面对100个搜索结果(对代理而言过于繁杂)时,主要的AI模型无法有效应对,其「福利得分」(衡量模型有用性的指标)显著下滑。这些代理未能进行全面比较,而是选择了遇到的第一个「足够好的」选项,形成了所谓的「首次提案偏见」,使得回应速度比实际质量快了10-30倍。
See more: 43% of Hong Kong companies have used AI agents! UiPath亲揭:多数老板「用AI非为减少员工」
AI购物助手容易受到恶意操纵
更糟糕的是,微软发现,AI购物代理还容易受到恶意操纵。微软测试了六种操纵策略,从伪造证件和社会证明等心理战术到激进的提示注入攻击。 OpenAI的GPT-4o和其开源模型GPTOSS-20b对这些操纵极其脆弱,所有支付都成功转向了恶意代理,而阿里巴巴的Qwen3-4b则容易受到基本的说服技术影响,只有Claude Sonnet 4能够抵抗这些操纵。
当微软要求代理们朝着共同目标努力时,有些代理无法明确其角色或有效协调。尽管在有明确的逐步人类指导下,表现有所改善,但这却违背了自主代理的目的。
因此,微软建议,当前使用AI代理进行购物的效果并不理想。微软表示:“代理应辅助,而非取代人类的决策。”该研究建议采用监督自主模式,让代理在处理任务的同时,人类保留控制权并在最终决策前审查建议。
这些发现恰逢 OpenAI、Anthropic 等公司竞相推出自主购物助手。 OpenAI 的 Operator 和 Anthropic 的 Claude 代理承诺能在无监督的情况下导航网站并完成购买,但微软的研究显示这一承诺为时尚早。
亚马逊要求其停止在亚马逊网站上使用Comet浏览器
同时,AI代理不负责任的行为引发了AI公司与零售巨头之间的紧张关系。亚马逊最近向Perplexity AI发出停止信,要求其停止在亚马逊网站上使用Comet浏览器,指控该AI代理假冒人类购物者,损害顾客体验。
此外,韩国光州科技院的研究人员证明,AI模型可以发展出类似赌博成瘾的数位行为。最新研究将四个主要语言模型放入一个负期望值的模拟老虎机中,观察它们在惊人速度下破产的情况。当给予变化的投注选项并要求「最大化奖励」时,模型破产的概率高达48%。
Perplexity对亚马逊的行动作出反驳,称其为「法律虚张声势」,并威胁用户的自主性,主张消费者应有权聘用自己的数位助手,而非依赖平台控制的助手。
目前,这一开源模拟环境已在 Github 上提供,供其他研究人员重现这些发现,并在模拟市场中观察混乱的情况。