我的世界高科技指令,我的世界特性与指令

首页 > 游戏 > 作者:YD1662024-01-03 13:29:19

浪潮信息人工智能软件研发总监吴韶华的观点是,模型对于训练数据集学习能力是非常强的,高质量数据成为大模型决胜关键。

他谈到的例子让人印象深刻:

“在源1.0研发的时候,数据主要来自于互联网,我们从2017年到2021年之间互联网数据里边搜集出来了差不多800TB互联网数据

我们清理出来大约5TB比较高质量数据,分析发现,哪怕应用很多的优化手段,数据质量依然不够高,依然会有噪声。

于是,在源2.0研发的时候,我们在数据方面做了大量的工作。

首先,大幅降低了来自互联网的数据占比,为了获得高质量数学数据,我们清洗了从2018到2023年之间互联网页,试图获取中文数学数据;我们开始处理的原始数据体量高达12PB,但最后获得的中文数学数据数据量不到10GB。

从12PB到小于10GB,大家可以想一下是什么概念。

高质量的数据非常难以获得。

为了弥补高质量数据的缺失,我们下了额外的功夫:

在预训练数据构建的时候,我们用大模型生成了一部分合成数据,比如部分代码数据,部分数学数据。

我们构建了一套基于大模型生成合成数据的工作流,通过这种形式可以保证生成数据的多样性,在每个类目里边保证数据的质量,通过这形式我们构建了一个比较完备的预训练数据集。

当然,类似的方式我们也用在了构建微调数据集上面。”

我的世界高科技指令,我的世界特性与指令(5)

一般说来,有些数据既可以处理成预训练数据,

也可以处理成指令数据,取决于处理的方法。

(二)开源指令数据集

目前,大部分大模型团队都有自建指令数据集,很多不愿意公开。

开源的指令数据应该很多元。

按任务可以分为:数学能力,文本改编,知识问答,编程,标题生成,逻辑推理等。

程序算作计算机可执行的语言,和文字不做区分,都算作语言。

比如,“帮我用python语言实现排序算法。”

大模型回复的是代码,代码可以执行.

这对指令数据中,含有的内容以代码为主。

解数学题的过程则属于逻辑推理。

指令数据也可以分为单模态和多模态;

多模态的数据集会在问答中含有图片,声音,视频等数据类型,比如,听歌识歌名,就需要音乐和文本的问答对进行训练。

这篇主要聊单模态。

“指令数据”全是人类手写也非常麻烦,所以,有一些是生成的。

生成的时候,因为问题和答案都是生的,所以要进行筛选。

为了纵览中文视角下的全球开源指令数据集情况,

“亲爱的数据”做了一个盘点:

我的世界高科技指令,我的世界特性与指令(6)

(三)提高质量的“魔法”

一位AI工程师告诉我:“敢开源,能开源的团队,都有点东西。”

我深以为意。

虽然不是每一次开源都让人兴奋,但是开源后,到底质量怎么样,有目共睹。

至少自信和敢作敢为这一波,力量是拉满了。

获得高质量数据这件事,是费时费力费人的工程活。

猛一看,技术含量不高,

细一看,大家都不愿意开源,可见技术含量藏的有点深。

我观察认为,有大模型训练实际经验的团队,比研究团队更有动力干这件事。

武汉人工智能研究院用一篇论文公开了他们构建指令数据集的方法。

实际上,武汉人工智能研究一直在研发迭代“紫东太初大模型”,他们对指令数据集的需求,来源于真实的复杂工程需求。

论文的方法,也是“紫东太初”大模型在用的方法。

省流版本是:

对于指令数据集来说,需要先定义什么是好问题好答案。

问题和答案的覆盖度足够全,有写代码,写作业,写信等形形色色的事情;1000个问题不能总在聊“吃”这个话题。

再定义什么是好答案。

武汉人工智能研究院的实践是训练了一个判断答案问答对质量的打分模型。

打分模型也是原创训练,基座还是语言模型,优化目标变成排序。给定一个任务,给出候选答案。标注好坏,训练结束,就具备了打分的功能。然后就能针对开源的指令数据打成绩单。

喂给模型,就会得到质量得分。

一千对问答,一千个分数。

高分留下,低分不要。

以分数来筛选。

更为详细的做法,可参见论文:

MoDS: Model-oriented Data Selection for Instruction Tuning

《MoDS:面向模型的指令数据选择》。

我的世界高科技指令,我的世界特性与指令(7)

我认为论文题目可以叫,大模型指令数据高效选择方法MoDS。

论文回答了,如何为LLM选择合适的指令数据?

论文作者为:杜倩龙、宗成庆、张家俊

我的世界高科技指令,我的世界特性与指令(8)

上一页1234下一页

栏目热文

文档排行

本站推荐

Copyright © 2018 - 2021 www.yd166.com., All Rights Reserved.