项目反应理论的难度参数（项目反应理论的优点和缺点） - 原点资讯

图14 学科知识水平对比：ChatGPT（蓝） vs 学生（红）

数学推理水平：ChatGPT 的数学推理能力与人类的数学推理能力仍有相当大的差距：在“概率与统计”、“排列与组合”以及“几何”的问题的上尤其差；在“函数”、“方程和不等式”方面的表现相对好一些。因此，对于方程、函数这种有固定解题套路的基本计算问题，ChatGPT 是合格的。但面对现实场景中的推理问题[7]（例如，概率和统计、排列组合）显然还差得远。

项目反应理论的难度参数,项目反应理论的优点和缺点(17)

图15 数学推理能力对比：ChatGPT（蓝色） vs 学生（红色）

5.2 LLM排名

本文在国内外6个有代表性的商业化LLM进行了CAT测试，并同时与不同水平的人类学生进行比较：

项目反应理论的难度参数,项目反应理论的优点和缺点(18)

表1 不同 LLM 及不同水平学生能力诊断结果

数学推理：高水平高中生 > GPT4 ≈ 中等水平高中生 > 星火 > Bard > 文心 > ChatGPT > 千问
编程：高水平大学生 > GPT4 > 中等水平大学生 > ChatGPT > 星火 > 文心 > 千问 > Bard
学科知识：GPT4 > Bard > ChatGPT ≈ 高水平大学生 > 中等水平大学生 > 星火 > 千问 > 文心

GPT4 在学科知识、数学推理、编程水平上明显优于其他 LLM。其学科知识水平几乎在每个知识点上都超过了高水平大学生（Top20%）。

每个 LLM 都有其自己的“特长”。例如编程中，GPT4 擅长“动态规划”和“数学问题”；ChatGPT 更擅长“搜索”问题；星火平均编程水平低于 GPT4/ChatGPT，但是用编程解决数学问题是它的强项。因此，尽管这些 LLM 没有公布它们预训练所用数据的配比和具体细节，本文有理由推断，ChatGPT/GPT4 可能在训练阶段使用了更多的编程相关数据，而星火则使用了更多的数学学科数据。

大模型要实现媲美人类的数学推理仍有很长的路要走。根据CAT诊断的结果，即使最强的GPT4，其推理能力也接近于中等水平的高中生。毕竟LLM的本质还是数据驱动的概率生成模型，并非像人类那样去思考和推理。因此，基于或模仿人类的认知结构[9]，或许是未来提升LLM推理能力的“捷径”。

六、总结

大语言模型正逐步改变人们日常的工作和生活方式。越来越多的人尝试探索 LLM 能力边界，让它们完成传统NLP时代难以想象的事情，如生成代码、制作PPT、作诗作曲等等。因此，如何科学有效地诊断并分析LLM的能力显得愈发重要。本文尝试引入原本用于人类的认知能力评估框架——计算机自适应测试，来对 LLM 进行评估。在相同的评估精度下，CAT需要的测试数据更少，极大地降低了对LLM 评估的人工成本和计算开销。

原论文由于中国科学技术大学计算机学院BASE(http://base.ustc.edu.cn/)课题组撰写。该课题组聚焦于将大数据和人工智能技术应用于教育科学，包括：教育资源理解、认知诊断与学生建模、个性化教育服务等。本文希望CAT这一科学的评估范式可以促进 LLM 的研究与迭代，欢迎交流探讨！

参考文献

[1] Liu Q. Towards a New Generation of Cognitive Diagnosis[C]//IJCAI. 2021: 4961-4964.

[2] Zhuang Y, Liu Q, Huang Z, et al. A Robust Computerized Adaptive Testing Approach in Educational Question Retrieval[C]//Proceedings of the 45th International ACM SIGIR Conference on Research and Development in Information Retrieval. 2022: 416-426.

[3] Sheldon M Ross. A first course in probability. Pearson, 2014.

[4] Zhuang Y, Liu Q, Huang Z, et al. Fully Adaptive Framework: Neural Computerized Adaptive Testing for Online Education[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2022, 36(4): 4734-4742.

[5] C. Wang, D. J. Weiss, and Z. Shang. Variable-length stopping rules for multidimensional computerized adaptive testing. Psychometrika, 2018.

[6] OpenAI. Gpt-4 technical report, 2023.

[7] Wim J Van der Linden and Cees AW Glas. Elements of adaptive testing, volume 10. Springer, 2010.

[8] Lin X, Huang Z, Zhao H, et al. Learning Relation-Enhanced Hierarchical Solver for Math Word Problems[J]. IEEE Transactions on Neural Networks and Learning Systems, 2023.

[9] Liu J, Huang Z, Lin X, et al. A cognitive solver with autonomously knowledge learning for reasoning mathematical answers[C]//2022 IEEE International Conference on Data Mining (ICDM). IEEE, 2022: 269-278.