项目反应理论的难度参数,项目反应理论的优点和缺点

首页 > 实用技巧 > 作者:YD1662023-11-17 10:57:24

图14 学科知识水平对比:ChatGPT(蓝) vs 学生(红)

  1. 数学推理水平:ChatGPT 的数学推理能力与人类的数学推理能力仍有相当大的差距:在“概率与统计”、“排列与组合”以及“几何”的问题的上尤其差;在“函数”、“方程和不等式”方面的表现相对好一些。因此,对于方程、函数这种有固定解题套路的基本计算问题,ChatGPT 是合格的。但面对现实场景中的推理问题[7](例如,概率和统计、排列组合)显然还差得远。

项目反应理论的难度参数,项目反应理论的优点和缺点(17)

图15 数学推理能力对比:ChatGPT(蓝色) vs 学生(红色)

5.2 LLM排名

本文在国内外6个有代表性的商业化LLM进行了CAT测试,并同时与不同水平的人类学生进行比较:

项目反应理论的难度参数,项目反应理论的优点和缺点(18)

表1 不同 LLM 及不同水平学生能力诊断结果

数学推理:高水平高中生 > GPT4 ≈ 中等水平高中生 > 星火 > Bard > 文心 > ChatGPT > 千问

编程:高水平大学生 > GPT4 > 中等水平大学生 > ChatGPT > 星火 > 文心 > 千问 > Bard

学科知识:GPT4 > Bard > ChatGPT ≈ 高水平大学生 > 中等水平大学生 > 星火 > 千问 > 文心

GPT4 在学科知识、数学推理、编程水平上明显优于其他 LLM。其学科知识水平几乎在每个知识点上都超过了高水平大学生(Top20%)。

每个 LLM 都有其自己的“特长”。例如编程中,GPT4 擅长“动态规划”和“数学问题”;ChatGPT 更擅长“搜索”问题;星火平均编程水平低于 GPT4/ChatGPT,但是用编程解决数学问题是它的强项。因此,尽管这些 LLM 没有公布它们预训练所用数据的配比和具体细节,本文有理由推断,ChatGPT/GPT4 可能在训练阶段使用了更多的编程相关数据,而星火则使用了更多的数学学科数据。

大模型要实现媲美人类的数学推理仍有很长的路要走。根据CAT诊断的结果,即使最强的GPT4,其推理能力也接近于中等水平的高中生。毕竟LLM的本质还是数据驱动的概率生成模型,并非像人类那样去思考和推理。因此,基于或模仿人类的认知结构[9],或许是未来提升LLM推理能力的“捷径”。

六、总结

大语言模型正逐步改变人们日常的工作和生活方式。越来越多的人尝试探索 LLM 能力边界,让它们完成传统NLP时代难以想象的事情,如生成代码、制作PPT、作诗作曲等等。因此,如何科学有效地诊断并分析LLM的能力显得愈发重要。本文尝试引入原本用于人类的认知能力评估框架——计算机自适应测试,来对 LLM 进行评估。在相同的评估精度下,CAT需要的测试数据更少,极大地降低了 对LLM 评估的人工成本和计算开销。

原论文由于中国科学技术大学计算机学院BASE(http://base.ustc.edu.cn/)课题组撰写。该课题组聚焦于将大数据和人工智能技术应用于教育科学,包括:教育资源理解、认知诊断与学生建模、个性化教育服务等。本文希望CAT这一科学的评估范式可以促进 LLM 的研究与迭代,欢迎交流探讨!

参考文献

[1] Liu Q. Towards a New Generation of Cognitive Diagnosis[C]//IJCAI. 2021: 4961-4964.

[2] Zhuang Y, Liu Q, Huang Z, et al. A Robust Computerized Adaptive Testing Approach in Educational Question Retrieval[C]//Proceedings of the 45th International ACM SIGIR Conference on Research and Development in Information Retrieval. 2022: 416-426.

[3] Sheldon M Ross. A first course in probability. Pearson, 2014.

[4] Zhuang Y, Liu Q, Huang Z, et al. Fully Adaptive Framework: Neural Computerized Adaptive Testing for Online Education[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2022, 36(4): 4734-4742.

[5] C. Wang, D. J. Weiss, and Z. Shang. Variable-length stopping rules for multidimensional computerized adaptive testing. Psychometrika, 2018.

[6] OpenAI. Gpt-4 technical report, 2023.

[7] Wim J Van der Linden and Cees AW Glas. Elements of adaptive testing, volume 10. Springer, 2010.

[8] Lin X, Huang Z, Zhao H, et al. Learning Relation-Enhanced Hierarchical Solver for Math Word Problems[J]. IEEE Transactions on Neural Networks and Learning Systems, 2023.

[9] Liu J, Huang Z, Lin X, et al. A cognitive solver with autonomously knowledge learning for reasoning mathematical answers[C]//2022 IEEE International Conference on Data Mining (ICDM). IEEE, 2022: 269-278.

作者:庄严

来源:公众号【PaperWeekly】

Illustration by IconScout Store from IconScout

-The End-

项目反应理论的难度参数,项目反应理论的优点和缺点(19)

扫码观看!

本周上新!

项目反应理论的难度参数,项目反应理论的优点和缺点(20)

上一页12345下一页

栏目热文

文档排行

本站推荐

Copyright © 2018 - 2021 www.yd166.com., All Rights Reserved.