研究发现ChatGPT表现下降速度惊人

财科快讯

AI cftime ChatGPT LLaMA OpenAI

2023-07-20

一项由加州大学柏克莱分校和斯丹福大学的研究人员进行的新研究发现，OpenAI 开发的ChatGPT表现下降明显，甚至可能越来越差。

掌握最新加密市场动态与区块链新闻与资讯，请即追踪 CFTime 专页。

研究人员分析了 ChatGPT 的不同版本，并开发了严格的基准来评估模型在数学、编码和视觉推理任务方面的能力。结果显示，ChatGPT 的表现出现了惊人的下降。

测试显示，在判定质数的数学挑战中，ChatGPT准确率从 3 月份的 97.6% 下降至 6 月份的 2.4%。在聊天机械人的软件编码能力方面，下降尤其明显。

此外，研究人员利用了来自抽象推理语料库（ARC）数据集的视觉提示来评估推理能力，可观察到明显下滑。研究亦发现，针对 GPT-4 直接可执行的生成百分比从 3 月份的52％下跌至 6 月份的10.0％。这些结果是通过使用纯版本的模型获得的，这意味着没有涉及代码解释器插件。

研究人员假设，这可能是 OpenAI 开发 ChatGPT 时更新的副作用之一，例如为了防止 ChatGPT 回答危险问题而引入的更改。然而，这种安全对齐可能会减少 ChatGPT 对其他任务的用处。研究人员发现，现在模型往往会给出冗长、间接的回答，而不是清晰的答案。

AI 专家 Santiago Valderrama 在 Twitter 上提出了一种可能性，即「更便宜、更快」的模型混合，可能取代了原始的 ChatGPT 架构。他假设有传言说 OpenAI 正在使用几个较小、较专门的 GPT-4 模型，这些模型的作用类似于一个大模型，但运行成本更低。他认为，这可能会加速用户的回应速度，但会降低模型的能力。

NVIDIA 高级人工智能科学家 Dr. Jm Fan 在 Twitter 上分享了他的见解，他认为更多的安全性通常是以更少的实用性为代价的。他认为理解这些结果与 OpenAI 如何微调其模型有关。

他猜测，从 3 月到 6 月，OpenAI 花费了大量时间微调，没有时间完全恢复其他重要的能力。 Fan 认为其他因素也可能发挥了作用，包括削减成本的努力、引入警告和免责声明可能会「简化」模型，以及缺乏来自社区的广泛反馈。

AI领域专家建议，ChatGPT 的用户可能需要降低期望值。许多人最初遇到的这个疯狂的想法生成机器看起来变得更加平淡 — 也许不那么出色了。

即使 ChatGPT 表现下降，它仍然是一个非常强大的模型，具有许多令人印象深刻的能力。此外，这种下降可能只是一个暂时的现象，因为 OpenAI 可能会进行进一步改善。因此，ChatGPT仍然是一个非常有价值的工具，可以用于各种语言和自然语言处理任务。

如何防止进一步的恶化呢？一些热心人士提倡使用像 Meta 的 LLaMA 这样的开发模型，以便社区进行调试。持续进行基准测试以及及早发现回归是至关重要的。

此外，ChatGPT的下降也提醒我们关注AI模型的安全性和实用性之间的平衡。这些模型需要在保持安全的同时继续保持其性能和功能。这需要对模型进行精心的微调和优化，以确保它们能够满足多种需求。

UD Blog

专业文章及见解，揭示科技领域的一切

研究发现ChatGPT表现下降速度惊人

UD Blockchain 通讯