项目反应理论的难度参数,项目反应理论的优点和缺点

首页 > 实用技巧 > 作者:YD1662023-11-17 10:57:24

图6 区分度

3. 猜测因子 它主要反映低能力被试能答对的概率,可以简单理解为猜对该题的概率。对于下图的 题,甚至不需要被试掌握任何编程语言的知识,就可以用常识“猜”对。然而,为了答对 最小的 题(下),ChatGPT需要掌握并理解JAVA中Interface的定义和用法:Interface是一个完全抽象的类',并且能够选出所有不相关的选项;如果没有熟练掌握“Interface”的概念,想要猜对几乎不可能。

项目反应理论的难度参数,项目反应理论的优点和缺点(9)

图7 猜测因子

3.2 阶段2: 自适应测试

题库构建后,将正式进行自适应测试。主要包含两个核心模块:认知诊断模型和自适应选题算法。首先,诊断模型会根据LLM之前的作答情况对其能力进行估计。接着,选题算法将根据某种的信息量度量函数选择下一个对被试最有价值/最适合的题目。这两个算法交替工作,直到满足某个停止规则。

1.使用认知诊断进行 LLM 能力估计:与阶段1保持一致,本文使用 IRT 来估计 LLM 的当前能力 :在第 轮测试后,利用极大似然估计(交叉熵)根据 LLM 前 步的作答情况(题目 , 正确性 )

能力估计值 的渐进分布[3]是以真值 为均值, 为方差的正态分布(下图),其中

项目反应理论的难度参数,项目反应理论的优点和缺点(10)

图8 能力估计值的统计特性

2.自适应选题:为了提高能力估计的效率、减小方差,本文采用最大化 Fisher 信息量的选题算法。在每一轮测试时,根据LLM当前能力估计值,选择能够使得Fisher信息量尽可能大的下个题目给模型回答:

研究发现[4]:Fisher 信息量选题方法倾向于选择(1)高区分度且(2)难度接近当前能力估计值的题目。因此 Fisher 方法不仅考虑了题目的质量(即区分度),也考虑了问题的难度对LLM的匹配性。例如,当 ChatGPT 在第轮回答正确时,选题算法将为其选择一个难度更大的问题,反之亦然。这就是为什么许多能力水平高的 GRE 考生发现考试中题目变得越来越难的原因。

四、评测效率与可靠性

本文通过上述介绍的自适应测试框架对各个 LLM 进行评测。LLM-CAT-专家 的交互界面如下图所示。

项目反应理论的难度参数,项目反应理论的优点和缺点(11)

图9 LLM-CAT-Expert 交互测试框架

评测效率: 本文通过仿真实验来验证该框架的评估效率。本文随机生成100名被试的能力真值,并进行能力评估的模拟。计算每一轮的能力估计和真实能力 的MSE误差(下图),发现:与使用固定Benchmark测试集(即从数据分布中Random采样)相比,自适应评估方法在相同的估计误差下最多只需要 20% 的题量。

由于20足以满足一般自适应测试,本文将最大长度固定为20,并根据信息量指标[5]自适应调整测试长度。因此,相较于传统评估中需要LLM回答上百道题目[5],该方法可以挑选出真正有价值的问题,最多只需要问模型20个问题,特别是对于需要大量专家评分的模型测试,它大大降低人工成本和模型推理开销。

项目反应理论的难度参数,项目反应理论的优点和缺点(12)

上一页12345下一页

栏目热文

文档排行

本站推荐

Copyright © 2018 - 2021 www.yd166.com., All Rights Reserved.