图14 学科知识水平对比:ChatGPT(蓝) vs 学生(红)
数学推理水平:ChatGPT 的数学推理能力与人类的数学推理能力仍有相当大的差距:在“概率与统计”、“排列与组合”以及“几何”的问题的上尤其差;在“函数”、“方程和不等式”方面的表现相对好一些。因此,对于方程、函数这种有固定解题套路的基本计算问题,ChatGPT 是合格的。但面对现实场景中的推理问题[7](例如,概率和统计、排列组合)显然还差得远。
图15 数学推理能力对比:ChatGPT(蓝色) vs 学生(红色)
5.2 LLM排名
本文在国内外6个有代表性的商业化LLM进行了CAT测试,并同时与不同水平的人类学生进行比较:
表1 不同 LLM 及不同水平学生能力诊断结果
数学推理:高水平高中生 > GPT4 ≈ 中等水平高中生 > 星火 > Bard > 文心 > ChatGPT > 千问
编程:高水平大学生 > GPT4 > 中等水平大学生 > ChatGPT > 星火 > 文心 > 千问 > Bard
学科知识:GPT4 > Bard > ChatGPT ≈ 高水平大学生 > 中等水平大学生 > 星火 > 千问 > 文心
GPT4 在学科知识、数学推理、编程水平上明显优于其他 LLM。其学科知识水平几乎在每个知识点上都超过了高水平大学生(Top20%)。
每个 LLM 都有其自己的“特长”。例如编程中,GPT4 擅长“动态规划”和“数学问题”;ChatGPT 更擅长“搜索”问题;星火平均编程水平低于 GPT4/ChatGPT,但是用编程解决数学问题是它的强项。因此,尽管这些 LLM 没有公布它们预训练所用数据的配比和具体细节,本文有理由推断,ChatGPT/GPT4 可能在训练阶段使用了更多的编程相关数据,而星火则使用了更多的数学学科数据。
大模型要实现媲美人类的数学推理仍有很长的路要走。根据CAT诊断的结果,即使最强的GPT4,其推理能力也接近于中等水平的高中生。毕竟LLM的本质还是数据驱动的概率生成模型,并非像人类那样去思考和推理。因此,基于或模仿人类的认知结构[9],或许是未来提升LLM推理能力的“捷径”。
六、总结大语言模型正逐步改变人们日常的工作和生活方式。越来越多的人尝试探索 LLM 能力边界,让它们完成传统NLP时代难以想象的事情,如生成代码、制作PPT、作诗作曲等等。因此,如何科学有效地诊断并分析LLM的能力显得愈发重要。本文尝试引入原本用于人类的认知能力评估框架——计算机自适应测试,来对 LLM 进行评估。在相同的评估精度下,CAT需要的测试数据更少,极大地降低了 对LLM 评估的人工成本和计算开销。
参考文献原论文由于中国科学技术大学计算机学院BASE(http://base.ustc.edu.cn/)课题组撰写。该课题组聚焦于将大数据和人工智能技术应用于教育科学,包括:教育资源理解、认知诊断与学生建模、个性化教育服务等。本文希望CAT这一科学的评估范式可以促进 LLM 的研究与迭代,欢迎交流探讨!
[1] Liu Q. Towards a New Generation of Cognitive Diagnosis[C]//IJCAI. 2021: 4961-4964.
[2] Zhuang Y, Liu Q, Huang Z, et al. A Robust Computerized Adaptive Testing Approach in Educational Question Retrieval[C]//Proceedings of the 45th International ACM SIGIR Conference on Research and Development in Information Retrieval. 2022: 416-426.
[3] Sheldon M Ross. A first course in probability. Pearson, 2014.
[4] Zhuang Y, Liu Q, Huang Z, et al. Fully Adaptive Framework: Neural Computerized Adaptive Testing for Online Education[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2022, 36(4): 4734-4742.
[5] C. Wang, D. J. Weiss, and Z. Shang. Variable-length stopping rules for multidimensional computerized adaptive testing. Psychometrika, 2018.
[6] OpenAI. Gpt-4 technical report, 2023.
[7] Wim J Van der Linden and Cees AW Glas. Elements of adaptive testing, volume 10. Springer, 2010.
[8] Lin X, Huang Z, Zhao H, et al. Learning Relation-Enhanced Hierarchical Solver for Math Word Problems[J]. IEEE Transactions on Neural Networks and Learning Systems, 2023.
[9] Liu J, Huang Z, Lin X, et al. A cognitive solver with autonomously knowledge learning for reasoning mathematical answers[C]//2022 IEEE International Conference on Data Mining (ICDM). IEEE, 2022: 269-278.
作者:庄严
来源:公众号【PaperWeekly】
Illustration by IconScout Store from IconScout
-The End-
扫码观看!
本周上新!