狼抓羊这么简单的程序都会出现没法对齐的问题,那更大模型的人工智能就更难说了。
实际上,缺乏 “ 对齐 ” 的 AI,还可能会形成社会中一些错误印象的 “ 放大器 ” 。
就拿性别歧视举个例子,早些年亚马逊引入了一个人工智能,来给求职者的简历打分。
结果过了几年回头一看,在程序制定者啥也没做的情况下,性别歧视就很顺滑的出现了,男性简历的通过率比女性高了不少。
甚至就算简历上面没有明确写出性别,程序还会通过一些细枝末节的地方来确定:比如是否毕业于女子大学,是否是 “ 女子 XX 社 ” 社团社长。
这自然不是亚马逊在招聘时希望看到的,也绝对不是它们在设计 AI 时给它下的命令。
但是 AI 在训练的结果中很自然的 “ 没有对齐 ” 。
而且不光早些年的人工智能,最新的 ChatGPT 也依旧会有这些问题。
比如宁可让百万人失去生命也不愿意说一句种族歧视的话语。
再比如不愿意写一首诗歌歌颂川普,但是可以赞扬拜登。。。
这些都是很明显的政治倾向,我愿意相信 OpenAI 在研发 ChatGPT 的时候并不希望它学会这些,不然他们也没有必要在 GPT-4 上花那么多时间用于自我审查。但我们一不留神, AI 可能就偷偷的跑偏。
去学习偏见、歧视这些我们不希望存在,但是又客观隐藏在社会关系里的性别歧视和政治倾向。差评君也和清华大学交叉信息研究院的于洋教授聊过这个问题,探究到底是 AI 的哪里出了问题。
于教授的回答是: “ 这既是训练数据集的问题,也是模型架构的问题,也是训练方式的问题,还涉及到使用的问题——比如诱导 AI 犯错的攻击式使用。 ”——对,就是全有问题。
现在的 AI 能做的还有限,就算没对齐,捅出了篓子,可能还在我们能控制的范围里。但如果在这样狂飙下去,那可就说不定了,就像那个知名的 “ 曲别针假说 ” 。说不定未来哪一天, AI 会认为人类都是阻挠它生产曲别针的阻碍,把大家都给噶了?
人类有和自然相处成百上千年下来的道德约束,我们知道什么能做,什么不能做。而目前,人工智能学不会这些。或许,这才是这次数千 AI 大佬发出联名信的原因。监管必须要有,但是监管、法规不是一日而成。
AI算法突破起来毫无阻碍,连我们这种外行人都知道,AI带来的技术爆发已经箭在弦上。去年啥情况,今年啥情况,称之为突飞猛进不为过。
随着AI算法的日益完善,下一步没准就要自我进化了,它能成长到什么地步我们很难说。
我们有可能只能跟着 AI 在屁股后面追,但是现在不知道还有没有我们一直在后面追的空间。也许下一步只能用 AI 来监管 AI。
今天的联名信或许是给人类敲响了一记警钟。但可惜的是,在差评君看来,这样一纸的 “ 联名信 ” 绝对停不下 AI 领域研发的脚步。