项目反应理论的难度参数,项目反应理论的优点和缺点

首页 > 实用技巧 > 作者:YD1662023-11-17 10:57:24

图10 自适应选择和随机选择的能力估计误差

自适应性:为验证CAT能否根据模型能力自适应地选择适合的问题,本文用 Jaccard 相似度来衡量任意两个模型所作答的题目集之间的相似性:

项目反应理论的难度参数,项目反应理论的优点和缺点(13)

图11 试卷的Jaccard相似度

评测可靠性:为了验证用于人类的CAT框架是否可以用于 LLM,本文研究了它的可靠性(SE 曲线[5])。在CAT中,SE值通常是指能力估计 的标准差,它反映了能力估计的精度:

项目反应理论的难度参数,项目反应理论的优点和缺点(14)

图12 ChatGPT 和学生的 SE 曲线

为探究ChatGPT与人类的相似性,本文在学生的测试过程中添加了猜测和失误因素:

(1) 猜测因素:即使被试没有掌握,仍有概率答猜对;

(2) 失误因素:即使掌握了该题,仍有小概率失误答错。

因此,Guess10% 表示正确性标签从错误变为正确的概率为10%,而 Slip10% 表示标签从正确变为错误的概率为10%。有趣的是,ChatGPT 的 SE 曲线非常接近 Guess=10%、Slip=30% 的学生(红色)。由此,本文推断 ChatGPT 更像一个“粗心的学生”,容易失误 (30%) 并且偶尔会去猜答案 (10%)。

五、诊断报告

本文选择了国内外较有代表性的6个instruction-tuned LLM 进行评测:ChatGPT、GPT4、谷歌Bard、百度文心一言(ERNIEBOT)、阿里通义千问(QianWen)、讯飞星火(Spark)。并将他们与高水平(High-Ability)、中等水平(Mid-Level)的人类学生进行比较。

数据集:本文选择学科知识、数学推理、编程三个领域为例对 LLM 进行细粒度评测,分别对应三个数据集:MOOC、MATH和CODIA。

5.1 ChatGPT VS 人类

本文以ChatGPT(蓝色)为例对其从上述三个方面进行高效诊断,并和高水平学生(红色)进行比较:

  1. 编程水平:尽管 ChatGPT 在官方报告和海量用户case中已经展示出其惊人的编程水平,但它并非全能,并不擅长所有类型的问题。本文使用 CODIA 平台对 ChatGPT 的编程能力中“动态编规划和贪心算法”、“搜索”、“数学问题”、“数据结构”、“树和图论”进行评估。ChatGPT 表现最佳的是“搜索”、“动态规划和贪心算法”。它在这些类型的问题上超过高水平大学生。然而,“数据结构”、“树和图论”是其编程能力上的短板。因此,下次让 ChatGPT 写代码时,可以避免这些类型;而如果你遇到关于动态规划的问题,则可以放心交给 ChatGPT。

项目反应理论的难度参数,项目反应理论的优点和缺点(15)

图13 编程水平对比:ChatGPT(蓝) vs 学生(红)

  1. 学科知识水平:如下图,ChatGPT 在“算法”和“机器学习”这两个知识点上的能力水平显著高于高水平学生。然而,它在编程语言方面相对较弱,这似乎与人们对其的认知不太相符。为了探索原因,本文在下图右侧展示了一个关于编程语言的例子。这是一道非常基础的问题,但是 ChatGPT 却答错了,类似的例子在ChatGPT的考试中并不罕见。这说明它在掌握和理解编程语言的一些基础概念方面并不准确。而结合它在 CODIA 上惊人的编码水平(上图),本文有理由相信:ChatGPT更像是一个 "实干家",而不是一个 "书呆子"。

项目反应理论的难度参数,项目反应理论的优点和缺点(16)

上一页12345下一页

栏目热文

文档排行

本站推荐

Copyright © 2018 - 2021 www.yd166.com., All Rights Reserved.