大规模语言模型(LLM)如 ChatGPT 等已经展现出与人类相媲美的认知能力。为了更加高效且准确地比较不同模型的能力,本文提出了一个自适应测试框架用于 LLM 评估。该框架根据各个被试(模型)的表现动态地调整测试问题的特征,如难度等,为模型“量身定制”一场考试。
本文对六个商业化的大语言模型进行了细粒度的诊断,包括 ChatGPT(OpenAI)、GPT4(OpenAI)、Bard(谷歌)、文心一言(百度)、通义千问(阿里)和星火(讯飞)。从学科知识、数学推理和编程三个方面对它们进行了认知能力排名。这种“千模千测”的方法有可能成为评估大规模语言模型的新范式。
一、摘要论文链接:
http://arxiv.org/abs/2306.10512
ChatGPT等大规模语言模型(LLM)已经展现出与人类水平相媲美的认知能力。为了比较不同模型的能力,通常会用各个领域的Benchmark数据集(比如文学、化学、生物学等)进行测试,然后根据传统指标(比如答对率、召回率、F1值)来评估它们的表现。
然而,从认知科学[1]的角度来看,这种评估LLM的方法可能是低效且不准确的。受心理测量学中的计算机自适应测试(CAT)的启发,本文提出了一个用于LLM评估的自适应测试框架:并非简单计算答对率,而是根据各个被试(模型)的表现动态地调整测试问题的特征,如难度等,为模型“量身定制”一场考试。
以下图为例,CAT中的诊断模型CDM会根据被试之前的作答行为(对/错)对其能力进行估计。接着,选题算法(Selection Algorithm)会根据该估计值选择最具信息量或最适合他的下一道题,例如选择难度和被试能力最接近的题目。如此循环往复直到测试结束。相比传统评估方法,该框架能用更少的题目更准确地估计模型的能力[2]。
本文对6个商业化的大语言模型:ChatGPT(OpenAI)、GPT4(OpenAI)、Bard(谷歌)、文心一言(百度)、通义千问(阿里)、星火(讯飞)进行细粒度的诊断,并从学科知识、数学推理和编程三个方面对它们进行了认知能力排名。其中GPT4显著优于其他模型,已经达到了人类平均水平的认知能力。本文的诊断报告也发现,ChatGPT表现得像一个"粗心的学生",容易失误,偶尔也会猜测问题的答案。
“千模千测”——这有可能成为评估大规模语言模型的新范式。
二、引言近几个月来, 大规模语言模型(LLM)以其强大的能力颠覆了人们对语言模型的认知。除了传统的 NLP 任务,大模型在写作、编程、作词作曲等各方面展现出难以置信的类人水平 —— 这仅仅是 LLM 能力的冰山一角。
为了充分评估LLM认知能力水平,一些最初为人类设计的各类专业或学术考试被用来对模型进行评测: