然而,依赖这些固定的考试并不高效:
(1) 它通常需要许多相应领域的专家对 LLM 的每一个回答进行评判/打分,尤其对于主观或创造性的问题。
(2) 模型回答过程中推理(inference)的开销是巨大的。例如,GPT3需要在1750亿参数的模型上进行推理、GPT4对每一千tokens收费0.03美元,并且限制了API请求的频率...
因此,本文从认知科学领域中引入了一种新的评估模式——计算机自适应测试(Computerised Adaptive Testing, CAT),建立一个自适应的、高效的评估框架:
图3 自适应 LLM 评测
本文将 LLM 视为一个学生,为各个模型“定制试卷”以准确评估其能力。相比传统基于答对率的方法,它所需要的题目数量更少(降低专家人工成本)、能力估计更准,是一种更符合认知能力评估的范式。本文贡献如下:
正式将心理测量学中的CAT引入LLM的评估中,分析发现每个模型的试卷中有 20%~30% 的题目是不同的,这部分题目对测试的自适应性和个性化至关重要。同时,在相同的能力评估精度下,仅需要传统评估方法20%的样本/题目数量。
模型 vs 人类:本文将 ChatGPT 与不同能力水平人类进行了比较,发现它在动态规划和搜索方面的编程能力已经超越了高水平的大学生。同时,ChatGPT 经常表现得像一个“粗心的学生”,很容易失误,偶尔也会靠猜。
模型 vs 模型:本文研究了 6 个有代表性大模型,并得到它们在学科知识、数学推理和编程水平三个方面的细粒度诊断报告,发现GPT4显著超越其他大模型,其数学推理能力已经接近中等水平的高中生。
计算机自适应测试(CAT)是一种高效的、个性化的测试模式,已被广泛应用于各类标准化考试中(如GRE、GMAT)。它的首要目标是在准确评估被试者能力的同时尽可能缩短考试长度。相比传统的纸笔测试,CAT的测评效率更高。本节将详细介绍本文提出的两阶段 LLM 自适应评测框架:题库构建和自适应测试。
3.1 阶段1: 题库构建
首先需要为自适应测试构建一个多样且高质量的题库:准备好要目标领域/学科的题目集,题库构建的目标就是校准所有题目的参数特征(如难度、区分度等)。由于本文需要将人和LLM进行对比,还需要收集人类在这些题目上的作答记录。本文选择测量心理学中经典认知诊断模型——项目反应理论(Item Response Theory, IRT)来对题目参数进行校准:
其中表示能力为的被试者答对题目的概率。每个题目有三个参数:难度、区分度、猜测因子。
通过在作答记录上进行参数估计,得到所有 个试题的参数,以及个真实人类的估计能力值,可以后续直接用于与 LLM 进行比较。
IRT基本假设是:不同的题目对于能力评估的重要性并不相同。例如,大模型 A 和 B 在某个Benchmark中的答对率分别为 0.88 和 0.89,他们的差距可能并不像看起来那么小,甚至并不准确。因为 (1)大量简单的问题可能会淹没困难的问题,从而导致B无法显著地体现出其优越性;(2) 数据集中或存在标注错误/噪声,可能导致这些传统指标失效。下面利用估计出的题目参数列举一些例子。
1. 难度 :当被试能力保持不变时,难度越大,答对的概率越小。下图是本文中的 MOOC 数据集中估计出最难和最简单的题目。解决问题 需要 ChatGPT 理解 PAC,这是计算学习理论中一个非常难理解的知识点。相比之下,最简单的问题和机器学习中的“感知机”有关,初学者也可以很容易地解决。
图5 难度
2. 区分度 :对于区分度高的问题,能力的微小变化可能会引起答对率的较大变化,因此这些题目可以更好地区分具有相似能力的被试。下图低区分度 非常简单,而且这种“垂直平分线”问题有固定的套路,很难真正区分不同能力的被试。高区分度问题 虽然也不难,但需要对原问题进行转换,并熟练掌握“圆与圆之间的位置关系”的相关知识。