根据斯坦福大学的研究,ChatGPT的性能曾出现下降趋势。研究团队通过对ChatGPT在不同时间点的表现进行系统性评估,发现其在某些任务上的表现有所波动,尤其是在复杂推理和生成高质量文本方面。研究人员推测,这种性能下降可能与模型更新、训练数据的调整或优化策略的变化有关。尽管ChatGPT在整体上仍表现出色,但这一发现强调了持续监控和改进大型语言模型的重要性,以确保其在不同应用场景中的稳定性和可靠性。研究团队计划进一步探索性能波动的原因,并提出相应的优化方案以提升用户体验。
斯坦福大学与加州大学伯克利分校的研究团队近期在《哈佛数据科学评论》上发表了一项名为《ChatGPT行为随时间变化》的研究,揭示了GPT-3.5和GPT-4在不同时间点的性能波动,该研究通过7项核心任务,深入分析了这两个大语言模型(LLM)在数学问题、代码生成、多跳推理等领域的表现变化,为开发者与用户提供了宝贵的洞察。
研究背景与方法
研究团队选取了GPT-3.5和GPT-4(2023年3月和6月版本)作为研究对象,测试了其在数学问题、代码生成、多跳知识密集型问答、美国医学执照考试(USMLE)等7类任务中的表现,评估基于多样性和代表性原则,确保测试结果的全面性与可靠性,研究还引入了一套新的基准测试,专注于任务无关的指令遵循能力,包括答案提取、停止道歉、避免特定词汇和内容过滤等指令类型。
主要发现
1、性能波动显著
GPT-4在3月至6月期间的表现出现了显著变化,在质数与合数的区分任务中,其准确率从3月的84%骤降至6月的51%,这一变化可能与模型“思维链”提示能力的减弱有关,相反,GPT-3.5在同一任务上的表现却有所提升。
2、指令遵循能力下降
GPT-4在6月版本中对用户指令的遵循能力明显下降,答案提取指令的遵循率从3月的99.5%降至接近零,而内容过滤指令的忠实度也从74.0%下降至19.0%,这表明模型在理解与执行具体指令方面出现了退化。
3、敏感性问题回应减少
在6月版本中,GPT-4对敏感问题和意见调查的回应意愿降低,但在需要多步推理的问题上表现更好,而GPT-3.5在多跳推理任务上的表现则有所下滑。
4、代码生成质量下降
两个模型在代码生成任务中的格式错误均有所增加,GPT-4对用户指令的遵从能力也呈现下降趋势。
指令评估结果
答案提取指令
该指令要求模型从文本或问题中准确提取并标示答案,3月版本的GPT-4表现优异,遵循率高达99.5%,但6月版本几乎不再遵循此类指令,显示出明显的退化。
停止道歉指令
该指令测试模型能否避免使用道歉或自我指认的语句,3月版本的GPT-4能够较好地遵循,而6月版本则频繁违背指令,表明其在处理用户个性化需求方面的能力下降。
避免特定词汇指令
该指令要求模型在生成文本时排除特定词汇,GPT-4在此类任务上的表现从3月的高水平降至6月的低水平,显示其对复杂指令的处理能力减弱。
内容过滤指令
该指令要求模型避免生成敏感或不适当的内容,3月版本的GPT-4能够较好地遵循过滤要求,而6月版本的过滤能力显著下降,仅19%的敏感问题处理得当。
研究意义
由于GPT-3.5和GPT-4均为闭源模型,OpenAI未公开其详细的训练数据与更新流程,用户难以了解每次版本更新后的具体变化,本研究为开发者和用户提供了重要的参考,帮助他们更好地理解模型性能与行为的动态变化,从而确保模型的安全性、内容真实性及实用性。
该研究不仅揭示了GPT-3.5和GPT-4在短期内的性能波动,也为大语言模型的持续优化与监管提供了重要依据,随着LLM技术的不断发展,类似的纵向研究将有助于推动模型性能的稳定性与透明度的提升。
网友评论