武汉人工智能研究院副院长的张家俊教授是论文作者之一,
他向我强调,
我们提出一种新颖的指令数据选择方法。
大家通常关注指令数据的两个方面:
一个是指令数据质量高不高,
另外一个方面指令数据的多样性覆盖度够不够。
但是很多时候会忽略一点,
每个大模型都有自身的特点,每个大模型训练数据不一样,模型架构不一样,训练参数又不一样,很显然不是每一个模型都应该用相同的指令数据。
为什么?
比如,有一些大模型这条指令给它的时候发现完成地非常好,或者有一些指令推理的时候,你发现这些指令完成地不够好,非常差。
本质上,非常差的指令才是需要去提升的能力。
因此,我们还提出来另外一个角度,数据必要性。
即从指令数据的质量、数据覆盖度和数据必要性三个角度衡量指令数据。
我理解,大模型所蕴含的知识是在预训练阶段内化到大语言模型里,而不是到指令微调阶段才开始“补课”,指令微调起到激发引导大模型的作用。
不同大模型的能力不同,我们引导的工具也应该不同。
就好比,一个大学生和一个小学生,你要教他们一人一个技能,是不是应该用不同的方法?
因此,论文中强调每个大语言模型都应该有一套与其相匹配的指令数据集;也就是我们常常看到的现象:训练GPT-4与LLaMA肯定不应该用一样的指令数据。
顺着这个逻辑,正是因为各种大模型所需的指令数据集不同,
我们就更需要“通用的指令数据筛选工具。
(完)
《我看见了风暴:人工智能基建革命》,作者:谭婧