目前人工智能的定义是什么（目前的人工智能属于什么范畴） - 原点资讯

（来源：Bubeck）

Bubeck、Eldan 及微软的其他研究团队成员在一篇名为《人工通用智能的火花》的论文中阐述了他们的发现，文中提到：“我们相信，GPT-4 所展示的智能标志着计算机科学领域及之外的一次真正范式转变。”Bubeck 在网上分享该论文时，在推特上写道：“是时候面对现实了，#AGI 的火花已被点燃。”

这篇《火花》论文迅速变得臭名昭著，同时也成为 AI 支持者的试金石。Agüera y Arcas 与 Google 前研究总监、《人工智能：现代方法》一书的合著者 Peter Norvig 共同撰写了一篇文章，题为《人工通用智能已经到来》。该文章发表在洛杉矶智库 Berggruen 研究所支持的杂志 Noema 上，其中援引《火花》论文作为出发点，指出：“人工通用智能（AGI)对不同的人来说意味着许多不同的事物，但它的最重要部分已经被当前一代的先进大型语言模型实现。几十年后，它们会被公认为第一批真正的 AGI 实例。”

此后，围绕这一议题的炒作持续膨胀。当时在 OpenAI 专注于超级智能研究的 Leopold Aschenbrenner 去年告诉我：“过去几年里，AI 的发展速度异常迅速。我们不断打破各种基准测试记录，而且这种进步势头不减。但这只是个开始，我们将拥有超越人类的模型，比我们更聪明得多的模型。”（他声称因提出构建技术的安全性问题并“触怒了一些人”，于今年 4 月被 OpenAI 解雇，并随后在硅谷成立了投资基金。）

今年 6 月，Aschenbrenner 发布了一份长达 165 页的宣言，称 AI 将在“2025/2026 年”超过大学毕业生，并在本十年末实现真正意义上的超智能。然而，业内其他人对此嗤之以鼻。当 Aschenbrenner 在推特上发布图表，展示他预计 AI 在未来几年内如何继续保持近年来的快速进步速度时，科技投资者 Christian Keil 反驳道，按照同样的逻辑，他刚出生的儿子如果体重翻倍的速度保持不变，到 10 岁时将重达 7.5 万亿吨。

因此，“AGI 的火花”也成为了过度炒作的代名词，不足为奇。“我认为他们有点得意忘形了，”Marcus 在谈到微软团队时说，“他们像发现新大陆一样兴奋，‘嘿，我们发现了东西！这太神奇了！’但他们没有让科学界进行验证。”Bender 则将《火花》论文比喻为一部“粉丝小说”。

宣称 GPT-4 的行为显示出 AGI 迹象不仅具有挑衅性，而且作为在其产品中使用 GPT-4 的微软，显然有动机夸大这项技术的能力。“这份文件是伪装成研究的营销噱头，”一位科技公司的首席运营官在领英上如此评论。

一些人还批评该论文的方法论存在缺陷。其证据难以验证，因为这些证据源自与未向 OpenAI 和微软以外公开的 GPT-4 版本的互动。Bubeck 承认，公众版 GPT-4 设有限制模型能力的护栏，这使得其他研究人员无法重现他的实验。

一个团队尝试使用一种名为 Processing 的编程语言重新创建独角兽示例，GPT-4 同样能用此语言生成图像。他们发现，公众版 GPT-4 虽能生成一个过得去的独角兽图像，却不能将该图像旋转 90 度。这看似微小的区别，但在声称绘制独角兽的能力是 AGI 标志时，就显得至关重要。

《火花》论文中的关键点，包括独角兽的例子，是 Bubeck 及其同事认为这些都是创造性推理的真实案例。这意味着团队必须确保这些任务或非常类似的任务未包含在 OpenAI 用于训练其模型的庞大数据集中。否则，结果可能被解释为 GPT-4 重复其已见过的模式，而非创新性的表现。

目前人工智能的定义是什么,目前的人工智能属于什么范畴(9)

（来源：JUN IONEDA）

Bubeck 坚持表示，他们只给模型设置那些在网上找不到的任务。用 Latex 绘制卡通独角兽无疑就是这样的一个任务。但互联网浩瀚无边，很快就有其他研究者指出，实际上确实存在专门讨论如何用 Latex 绘制动物的在线论坛。“仅供参考，我们当时知道这件事，”Bubeck 在 X 平台上回复道，“《火花》论文中的每一个查询都在互联网上进行了彻底的搜索。”

（但这并未阻止外界的指责：“我要求你停止做江湖骗子，”加州大学伯克利分校的计算机科学家 Ben Recht 在推特上回击，并指控 Bubeck“被当场抓包撒谎”。）

Bubeck 坚称这项工作是出于好意进行的，但他和他的合著者在论文中承认，他们的方法并不严格，只是基于笔记本观察而非无懈可击的实验。

即便如此，他并不后悔：“论文已经发表一年多，我还没有看到有人给我一个令人信服的论证，比如说，为何独角兽不是一个真实推理的例子。”

这并不是说他对这个重大问题能给出直接答案——尽管他的回答揭示了他希望给出的那种答案类型。“什么是 AI？”Bubeck 反问我，“我想跟你说明白，问题可以简单，但答案可能很复杂。”

“有很多简单的问题，我们至今仍不知道答案。而其中一些简单的问题，却是最深刻的，”他接着说，“我把这个问题放在同等重要的地位上，就像，生命起源于何？宇宙的起源是什么？我们从何而来？这类大大的问题。”

在机器中只见数学

Bender 成为 AI 推动者的首席对手之前，她曾作为两篇有影响力的论文的合著者在 AI 领域留下了自己的印记。（她喜欢指出，这两篇论文都经过了同行评审，与《火花》论文及许多备受关注的其他论文不同。）第一篇论文是与德国萨尔兰大学的计算语言学家 Alexander Koller 共同撰写，于 2020 年发表，名为“迈向自然语言理解（NLU）”。

“这一切对我来说开始于与计算语言学界的其他人争论，语言模型是否真正理解任何东西，”她说。（理解，如同推理一样，通常被认为是人类智能的基本组成部分。）

Bender 和 Koller 认为，仅在文本上训练的模型只会学习语言的形式，而不是其意义。他们认为，意义由两部分组成：词汇（可能是符号或声音）加上使用这些词汇的原因。人们出于多种原因使用语言，比如分享信息、讲笑话、调情、警告他人退后等。剥离了这一语境后，用于训练如 GPT-4 这样的大型语言模型（LLMs）的文本足以让它们模仿语言的模式，使得许多由 LLM 生成的句子看起来与人类写的句子一模一样。然而，它们背后没有真正的意义，没有灵光一闪。这是一种显著的统计学技巧，但却完全无意识。

他们通过一个思维实验来阐述自己的观点。想象两个说英语的人被困在相邻的荒岛上，有一条水下电缆让他们能够互相发送文字信息。现在设想一只对英语一无所知但擅长统计模式匹配的章鱼缠绕上了电缆，开始监听这些信息。章鱼变得非常擅长猜测哪些词会跟随其他词出现。它变得如此之好，以至于当它打断电缆并开始回应其中一个岛民的信息时，她相信自己仍在与邻居聊天。（如果你没注意到，这个故事中的章鱼就是一个聊天机器人。）

与章鱼交谈的人会在一段时间内被骗，但这能持续吗？章鱼能理解通过电缆传来的内容吗？

目前人工智能的定义是什么,目前的人工智能属于什么范畴(10)

（来源：JUN IONEDA）

想象一下，现在岛民说她建造了一个椰子弹射器，并请章鱼也建造一个并告诉她它的想法。章鱼无法做到这一点。由于不了解消息中的词汇在现实世界中的指代，它无法遵循岛民的指示。也许它会猜测回复：“好的，酷主意！”岛民可能会认为这意味着与她对话的人理解了她的信息。但如果真是这样，她就是在没有意义的地方看到了意义。最后，想象岛民遭到熊的袭击，通过电缆发出求救信号。章鱼该如何处理这些词语呢？

Bender 和 Koller 认为，这就是大型语言模型如何学习以及为什么它们受限的原因。“这个思维实验表明，这条路不会引领我们走向一台能理解任何事物的机器，”Bender 说。“与章鱼的交易在于，我们给它提供了训练数据，即那两个人之间的对话，仅此而已。但是，当出现了出乎意料的情况时，它就无法应对，因为它没有理解。”

Bender 另一篇知名的论文《随机鹦鹉的危险》强调了一系列她和她的合著者认为制作大型语言模型的公司正在忽视的危害。这些危害包括制造模型的巨大计算成本及其对环境的影响；模型固化的种族主义、性别歧视和其他辱骂性语言；以及构建一个系统所带来的危险，该系统可能通过“随意拼接语言形式的序列……根据它们如何结合的概率信息，而不参考任何意义：一个随机鹦鹉”，从而欺骗人们。

谷歌高级管理层对该论文不满，由此引发的冲突导致 Bender 的两位合著者 Timnit Gebru 和 Margaret Mitchell 被迫离开公司，她们在那里领导着 AI 伦理团队。这也使得“随机鹦鹉”成为了大型语言模型的一个流行贬义词，并将 Bender 直接卷入了这场互骂的漩涡中。

对于 Bender 和许多志同道合的研究人员来说，底线是该领域已被烟雾和镜子所迷惑：“我认为他们被引导去想象能够自主思考的实体，这些实体可以为自己做出决定，并最终成为那种能够对其决定负责的东西。”

作为始终如一的语言学家，Bender 现在甚至不愿在不加引号的情况下使用“人工智能”这个词。“我认为它是一种让人产生幻想的概念，让人想象出能够自我决策并最终为这些决策承担责任的自主思考实体，”她告诉我。归根结底，对她而言，这是大型科技公司的一个流行语，分散了人们对诸多相关危害的注意力。“我现在置身事中，”她说。“我关心这些问题，而过度炒作正在妨碍进展。”

非凡的证据？

Agüera y Arcas 将像 Bender 这样的人称为“AI 否定者”，暗示他们永远不会接受他视为理所当然的观点。Bender 的立场是，非凡的主张需要非凡的证据，而我们目前还没有这样的证据。

但有人正在寻找这些证据，在他们找到明确无疑的证据——无论是思维的火花、随机鹦鹉还是介于两者之间的东西——之前，他们宁愿置身事外。这可以被称为观望阵营。

正如在布朗大学研究神经网络的 Ellie Pavlick 对我所说：“向某些人暗示人类智能可以通过这类机制重现，对他们来说是冒犯。”

她补充道，“人们对这个问题有着根深蒂固的信念——这几乎感觉像是宗教信仰。另一方面，有些人则有点上帝情结。因此，对他们来说，暗示他们就是做不到也是无礼的。”

Pavlick 最终持不可知论态度。她坚持自己是一名科学家，会遵循科学的任何导向。她对那些夸张的主张翻白眼，但她相信有一些令人兴奋的事情正在发生。“这就是我和 Bender 及 Koller 意见不同的地方，”她告诉我，“我认为实际上有一些火花——也许不是 AGI 级别的，但就像，里面有些东西是我们未曾预料到会发现的。”

问题在于，要找到对这些令人兴奋的事物及其为何令人兴奋的共识。在如此多的炒作之下，很容易变得愤世嫉俗。

当你听取像 Bubeck 这样的研究人员的意见时，你会发现他们似乎更为冷静。他认为内部争执忽视了他工作的细微差别。“同时持有不同的观点对我来说没有任何问题，”他说，“存在随机鹦鹉现象，也存在推理——这是一个范围，非常复杂。我们并没有所有的答案。”

“我们需要一套全新的词汇来描述正在发生的事情，”他说，“当我谈论大型语言模型中的推理时，人们会反驳，原因之一是它与人类的推理方式不同。但我认为我们无法不称之为推理，它确实是一种推理。”

尽管他的公司 Anthropic 是目前全球最炙手可热的 AI 实验室之一，且今年早些时候发布的 Claude 3——与 GPT-4 一样（甚至更多）获得了大量夸张赞誉的大型语言模型，但 Olah 在被问及如何看待 LLMs 时仍表现得相当谨慎。

“我觉得关于这些模型能力的很多讨论都非常部落化，”他说，“人们有先入为主的观念，而且任何一方的论证都没有充分的证据支撑。然后这就变成了基于氛围的讨论，我认为互联网上的这种基于氛围的争论往往会走向糟糕的方向。”

Olah 告诉我他有自己的直觉。“我的主观印象是，这些东西在追踪相当复杂的思想，”他说，“我们没有一个全面的故事来解释非常大的模型是如何工作的，但我认为我们所看到的很难与极端的‘随机鹦鹉’形象相调和。”

这就是他的极限：“我不想超越我们现有证据所能强烈推断出的内容。”

上个月，Anthropic 发布了一项研究的结果，研究人员给 Claude 3 做了相当于神经网络的 MRI。通过监测模型运行时哪些部分开启和关闭，他们识别出了在模型展示特定输入时激活的特定神经元模式。

例如，当模型接收到金门大桥的图像或与之相关的词汇时，似乎就会出现一种特定的模式。研究人员发现，如果他们增强模型中这一部分的作用，Claude 就会完全沉迷于这座著名的建筑。无论你问它什么问题，它的回答都会涉及这座桥——甚至在被要求描述自己时，它也会将自己与桥联系起来。有时它会注意到提及桥梁是不恰当的，但又忍不住会这样做。

目前人工智能的定义是什么,目前的人工智能属于什么范畴(11)

（来源：Claude）

Anthropic 还报告了与尝试描述或展示抽象概念的输入相关的模式。“我们看到了与欺骗和诚实、谄媚、安全漏洞、偏见相关的特征，”Olah 说，“我们发现了与寻求权力、操纵和背叛相关的特征。”

这些结果让我们迄今为止最清晰地看到了大型语言模型的内部情况。这是对看似难以捉摸的人类特质的一种诱人一瞥。但它真正告诉我们什么呢？正如 Olah 所承认的，他们不知道模型如何处理这些模式。“这是一个相对有限的画面，分析起来相当困难，”他说。

即使 Olah 不愿意具体说明他认为像 Claude 3 这样的大型语言模型内部究竟发生了什么，显而易见的是，这个问题对他来说为什么重要。Anthropic 以其在 AI 安全方面的工作而闻名——确保未来强大的模型会按照我们希望的方式行动，而不是以我们不希望的方式（在行业术语中称为“对齐”）。弄清楚当今模型的工作原理，不仅是如果你想控制未来模型所必需的第一步；它也告诉你，首先你需要对末日情景担心多少。“如果你认为模型不会有很强的能力，”Olah 说，“那么它们可能也不会很危险。”

目前人工智能的定义是什么,目前的人工智能属于什么范畴(12)