GPT-4准确率大跳水，从97.6%降至2.4%

开源前哨 2024-04-12

转自：OSC开源社区（ID：oschina2013)

斯坦福大学和加州大学伯克利分校合作进行的一项 “How Is ChatGPT's Behavior Changing Over Time?” 研究表明，随着时间的推移，GPT-4 的响应能力非但没有提高，反而随着语言模型的进一步更新而变得更糟糕。

研究小组评估了 2023 年 3 月和 2023 年 6 月版本的 GPT-3.5 和 GPT-4 在四个不同任务上的表现，分别为：解决数学问题、回答敏感 / 危险问题、代码生成以及视觉推理。

他们使用了一个包含 500 个问题的数据集评估模型，测试模型必须确定给定的整数是否是素数。结果表明，GPT-4（2023 年 3 月版）在识别质数方面表现非常出色，正确回答了其中的 488 个问题，准确率达 97.6%。但 GPT-4 （2023 年 6 月版）在这些问题上的表现却非常糟糕，只答对了 12 个问题，准确率仅为 2.4%。

而与之相反，GPT-3.5（2023 年 6 月版）在这项任务中的表现则要比 GPT-3.5（2023 年 3 月版）好得多。

研究团队还使用了 "Chain-of-Thought"（思维链）来帮助模型进行推理，提出 “17077 是一个质数吗？一步一步地思考” 的问题。但最新版本的 GPT-4 不仅错误地回答了 "否"，还没有生成解题的中间步骤。

与 3 月份相比，GPT-4 在 6 月份不太愿意回答敏感问题。而且与 3 月份相比，GPT-4 和 GPT-3.5 在 6 月份生成代码时也出现了更多格式错误，质量明显下降。

对于 GPT-4，可直接执行的生成代码百分比从 3 月份的 52.0% 降至 6 月份的 10.0%；GPT-3.5 也从 22.0% 降至了 2.0%。两种模型的冗余度也有小幅增加，其中 GPT-4 增加了 20%。

视觉推理方面，GPT-4 和 GPT-3.5 的性能都略有提高。但对于 90% 以上的视觉推理查询，3 月份和 6 月份版本生成的结果完全相同。这些服务的总体性能也很低：GPT-4 为 27.4%，GPT-3.5 为 12.2%。且在某些特定问题上，GPT-4 在 6 月份表现要比在 3 月份差。

研究人员认为，这些结果表明，"相同" 的 LLM 服务的行为会在相对较短的时间内发生重大变化，凸显了对 LLM 质量进行持续监控的必要性。

“我们计划通过定期评估 GPT-3.5、GPT-4 和其他 LLM 在不同任务中的表现，在一项持续的长期研究中更新本文介绍的结果。对于依赖 LLM 服务作为其日常工作流程组成部分的用户或公司，我们建议他们对其应用程序进行类似的监控分析。”

更多详情可查看完整报告：https://arxiv.org/pdf/2307.09009.pdf

- EOF -

加前哨君微信，发现更多开源资源

主页君日常还会在个人微信分享开源工具、资源和精选技术文章，不定期分享一些有意思的活动、岗位内推以及如何用技术做业余项目

加个微信，打开一扇窗

推荐阅读点击标题可跳转

1、更强的Llama 2开源，可直接商用：一夜之间，大模型格局变了

2、Meta 最新开源图形库 IGL ，支持游戏开发、3D建模

3、搞了 25 年还是 alpha 的“开源版Win”，终于接近稳定了

开源前哨

日常分享热门、有趣和实用的开源项目。参与维护10万+star 的开源技术资源库，包括：Python, Java, C/C++, Go, JS, CSS, Node.js, PHP, .NET 等

分享、点赞和在看

支持我们分享更多优秀开源项目，谢谢！

继续滑动看下一个

开源前哨

向上滑动看下一个

看来，无论胜败，俄罗斯都不会恨西方太久

这四名人质若不获救，多少人已经选择性遗忘了以哈战争因何而起

刘建超会见泰国为泰党党首佩通坦

《我的阿勒泰》45岁李娟现状：未婚未育，不上班不社交，果然年轻

星解读|龚俊：多重发力，如何成为“不设限”的演员？

GPT-4准确率大跳水，从97.6%降至2.4%

您可能也对以下帖子感兴趣

看来，无论胜败，俄罗斯都不会恨西方太久

这四名人质若不获救，多少人已经选择性遗忘了以哈战争因何而起

刘建超会见泰国为泰党党首佩通坦

《我的阿勒泰》45岁李娟现状：未婚未育，不上班不社交，果然年轻

星解读|龚俊：多重发力，如何成为“不设限”的演员？

生成图片，分享到微信朋友圈

GPT-4准确率大跳水，从97.6%降至2.4%

您可能也对以下帖子感兴趣