为何我们难以达成一致
在 2014 年 BBC 对她职业生涯回顾的一次采访中,现年 87 岁的有影响力的认知科学家 Margaret Boden 被问及她是否认为有任何限制会阻止计算机(或者她所谓的“锡罐子”)去做人类能做的事情。
“我当然不认为原则上存在这样的限制,”她说,“因为否认这一点就意味着人类的思维是靠魔法发生的,而我不相信它是靠魔法发生的。”
但她警告说,强大的计算机本身并不足以使我们达到这一目标:AI 领域还需要“有力的想法”——关于思维如何发生的全新理论,以及可能复制这一过程的新算法。“但这些东西非常、非常困难,我没有理由假设有一天我们能够回答所有这些问题。或许我们能;或许我们不能。”
博登回顾了当前繁荣期的早期阶段,但这种我们能否成功的摇摆不定反映了数十年来她和她的同僚们努力解决的难题,这些难题正是今天研究人员也在努力克服的。AI 作为一个雄心勃勃的目标始于大约 70 年前,而我们至今仍在争论哪些是可实现的,哪些不是,以及我们如何知道自己是否已经实现了目标。大部分——如果不是全部的话——这些争议归结为一点:我们尚未很好地理解什么是智能,或者如何识别它。这个领域充满了直觉,但没有人能确切地说出答案。
自从人们开始认真对待 AI 这一理念以来,我们就一直卡在这个问题上。甚至在此之前,当我们消费的故事开始在集体想象中深深植入类人机器的概念时,也是如此。这些争论的悠久历史意味着,今天的争论往往强化了自一开始就存在的分歧,使得人们更加难以找到共同点。
为了理解我们是如何走到这一步的,我们需要了解我们曾经走过的路。因此,让我们深入探究AI的起源故事——这也是一个为了资金而大肆宣传的故事。
人工智能宣传简史
计算机科学家 John McCarthy(约翰·麦卡锡) 在 1955 年为新罕布什尔州达特茅斯学院 (Dartmouth College)的一个暑期研究项目撰写资助申请时,被认为提出了“人工智能”这一术语。
从左到右:Oliver Selfridge, Nathaniel Rochester, Ray Solomonoff, Marvin Minsky, Peter Milner, John McCarthy, and Claude Shannon 坐在 1956 年达特茅斯会议的草坪上(来源:COURTESY OF THE MINSKY FAMILY)
计划是让 McCarthy 和他的几个研究员同伴——战后美国数学家和计算机科学家的精英群体,或如剑桥大学研究 AI 历史以及谷歌 DeepMind 伦理与政策的研究员 Harry Law 所称的“John McCarthy 和他的小伙伴们”——聚在一起两个月(没错,是两个月),在这个他们为自己设定的新研究挑战上取得重大进展。
McCarthy 和他的合著者写道:“该研究基于这样一个假设进行:学习的每一个方面或智力的任何其他特征原则都可以被如此精确地描述,以至于可以制造一台机器来模拟它。我们将尝试找出如何让机器使用语言、形成抽象概念、解决目前仅限于人类的问题,并自我改进。”
他们想让机器做到的这些事情——Bender 称之为“充满憧憬的梦想”——并没有太大改变。使用语言、形成概念和解决问题仍然是当今 AI 的定义性目标。傲慢也并未减少多少:“我们认为,如果精心挑选的一组科学家一起工作一个夏天,就能在这些问题中的一个或多个方面取得显著进展。”他们写道。当然,那个夏天已经延长到了七十年。至于这些问题实际上现在解决了多少,仍然是人们在网络上争论的话题。
然而,这段经典历史中常被忽略的是,人工智能差点就没有被称为“人工智能”。
不止一位 McCarthy 的同事讨厌他提出的这个术语。据历史学家 Pamela McCorduck (帕梅拉·麦考达克)2004 年的书《思考的机器》引用,达特茅斯会议参与者及首台跳棋电脑创造者 Arthur Samuel(亚瑟·塞缪尔) 说:“'人工'这个词让你觉得这里面有些虚假的东西。”数学家 Claude Shannon(克劳德·香农),达特茅斯提案的合著者,有时被誉为“信息时代之父”,更喜欢“自动机研究”这个术语。Herbert Simon(赫伯特·西蒙)和 Allen Newell(艾伦·纽厄尔),另外两位 AI 先驱,在之后的多年里仍称自己的工作为“复杂信息处理”。
事实上,“人工智能”只是可能概括达特茅斯小组汲取的杂乱思想的几个标签之一。历史学家 Jonnie Penn 当时已确认了一些可能的替代选项,包括“工程心理学”、“应用认识论”、“神经控制论”、“非数值计算”、“神经动力学”、“高级自动编程”和“假设性自动机”。这一系列名称揭示了他们新领域灵感来源的多样性,涵盖了生物学、神经科学、统计学等多个领域。另一位达特茅斯会议参与者 Marvin Minsky 曾将 AI 描述为一个“手提箱词”,因为它能承载许多不同的解释。
但 McCarthy 想要一个能捕捉到他愿景雄心壮志的名称。将这个新领域称为“人工智能”吸引了人们的注意——以及资金。别忘了:AI 既性感又酷。
除了术语,达特茅斯提案还确定了人工智能相互竞争的方法之间的分裂,这种分裂自此以后一直困扰着该领域——Law 称之为“AI 的核心紧张关系”。
(来源:MIT TR)
McCarthy 和他的同事们想用计算机代码描述“学习的每一个方面或其他任何智力特征”,以便机器模仿。换句话说,如果他们能弄清楚思维是如何工作的——推理的规则——并写下来,他们就可以编程让计算机遵循。这奠定了后来被称为基于规则或符号 AI(现在有时被称为 GOFAI,即“好老式的人工智能”)的基础。但提出硬编码规则来捕获实际、非琐碎问题的解决过程证明太难了。
另一条路径则偏爱神经网络,即试图以统计模式自行学习这些规则的计算机程序。达特茅斯提案几乎是以附带的方式提到它(分别提到“神经网络”和“神经网”)。尽管这个想法起初似乎不太有希望,但一些研究人员还是继续在符号 AI 的同时开发神经网络的版本。但它们真正起飞要等到几十年后——加上大量的计算能力和互联网上的大量数据。快进到今天,这种方法支撑了整个 AI 的繁荣。
这里的主要收获是,就像今天的研究人员一样,AI 的创新者们在基础概念上争执不休,并陷入了自我宣传的旋涡。就连 GOFAI 团队也饱受争吵之苦。年近九旬的哲学家及 AI 先驱 Aaron Sloman 回忆起他在 70 年代认识的“老朋友”明斯基和麦卡锡时,两人“强烈意见不合”:“Minsky 认为 McCarthy 关于逻辑的主张行不通,而 McCarthy 认为 Minsky 的机制无法做到逻辑所能做的。我和他们都相处得很好,但我当时在说,‘你们俩都没搞对。’”(斯洛曼仍然认为,没有人能解释人类推理中直觉与逻辑的运用,但这又是另一个话题!)
随着技术命运的起伏,“AI”一词也随之时兴和过时。在 70 年代初,英国政府发布了一份报告,认为 AI 梦想毫无进展,不值得资助,导致这两条研究路径实际上都被搁置了。所有那些炒作,实质上都未带来任何成果。研究项目被关闭,计算机科学家从他们的资助申请中抹去了“人工智能”一词。
当我在 2008 年完成计算机科学博士学位时,系里只有一个人在研究神经网络。Bender 也有类似的记忆:“在我上大学时,一个流传的笑话是,AI 是我们还没有弄清楚如何用计算机做的任何事。就像是,一旦你弄明白怎么做了,它就不再神奇,所以它就不再是 AI 了。”
但那种魔法——达特茅斯提案中概述的宏伟愿景——仍然生机勃勃,正如我们现在所见,它为 AGI(通用人工智能)梦想奠定了基础。
好行为与坏行为
1950 年,也就是 McCarthy 开始谈论人工智能的五年前,Alan Turing(艾伦·图灵) 发表了一篇论文,提出了一个问题:机器能思考吗?为了探讨这个问题,这位著名的数学家提出了一个假设测试,即后来闻名的图灵测试。测试设想了一个场景,其中一个人类和一台计算机位于屏幕后,而第二个人类通过打字向他们双方提问。如果提问者无法分辨哪些回答来自人类,哪些来自计算机,Turing 认为,可以说计算机也可以算是思考的。
与 McCarthy 团队不同,Turing 意识到思考是一个很难描述的事情。图灵测试是一种绕开这个问题的方法。“他基本上是在说:与其关注智能的本质,不如寻找它在世界中的表现形式。我要寻找它的影子,”Law 说。
1952 年,英国广播公司电台组织了一个专家小组进一步探讨 Turing 的观点。图灵在演播室里与他的两位曼彻斯特大学同事——数学教授 Maxwell Newman (麦克斯韦尔·纽曼)和神经外科教授 Geoffrey Jefferson(杰弗里·杰斐逊),以及剑桥大学的科学、伦理与宗教哲学家 Richard Braithwaite(理查德·布雷斯韦特)一同出席。
Braithwaite 开场说道:“思考通常被认为是人类,也许还包括其他高等动物的专长,这个问题可能看起来太荒谬了,不值得讨论。但当然,这完全取决于‘思考’中包含了什么。”
小组成员围绕 Turing 的问题展开讨论,但始终未能给出确切的定义。
当他们试图定义思考包含什么,其机制是什么时,标准一直在变动。“一旦我们能在大脑中看到因果关系的运作,我们就会认为那不是思考,而是一种缺乏想象力的苦力工作,”图灵说道。
问题在于:当一位小组成员提出某种可能被视为思考证据的行为——比如对新想法表示愤怒——另一位成员就会指出,计算机也可以被编程来做到这一点。
(来源:MIT TR)
正如 Newman 所说,编程让计算机打印出“我不喜欢这个新程序”是轻而易举的。但他承认,这不过是个把戏。
Jefferson 对此表示赞同:他想要的是一台因为不喜欢新程序而打印出“我不喜欢这个新程序”的计算机。换言之,对于 Jefferson 来说,行为本身是不够的,引发行为的过程才是关键。
但 Turing 并不同意。正如他所指出的,揭示特定过程——他所说的苦力工作——并不能确切指出思考是什么。那么剩下的还有什么?
“从这个角度来看,人们可能会受到诱惑,将思考定义为我们还不理解的那些心理过程,”Turing 说,“如果这是正确的,那么制造一台思考机器就是制造一台能做出有趣事情的机器,而我们其实并不完全理解它是如何做到的。”
听到人们首次探讨这些想法感觉有些奇怪。“这场辩论具有预见性,”哈佛大学的认知科学家 Tomer Ullman 说,“其中的一些观点至今仍然存在——甚至更为突出。他们似乎在反复讨论的是,图灵测试首先并且主要是一个行为主义测试。”
对 Turing 而言,智能难以定义但容易识别。他提议,智能的表现就足够了,而没有提及这种行为应当如何产生。
然而,大多数人被逼问时,都会凭直觉判断何为智能,何为非智能。表现出智能有愚蠢和聪明的方式。1981 年,纽约大学的哲学家 Ned Block 表明,Turing 的提议没有满足这些直觉。由于它没有说明行为的原因,图灵测试可以通过欺骗手段(正如纽曼在 BBC 广播中所指出的)来通过。
“一台机器是否真的在思考或是否智能的问题,难道取决于人类审问者的易骗程度吗?”布洛克问道。(正如计算机科学家 Mark Reidl 所评论的那样:“图灵测试不是为了让 AI 通过,而是为了让人类失败。”)
Block 设想了一个庞大的查找表,其中人类程序员录入了对所有可能问题的所有可能答案。向这台机器输入问题,它会在数据库中查找匹配的答案并发送回来。Block 认为,任何人使用这台机器都会认为其行为是智能的:“但实际上,这台机器的智能水平就像一个烤面包机,”他写道,“它展现的所有智能都是其程序员的智能。”
Block 总结道,行为是否为智能行为,取决于它是如何产生的,而非它看起来如何。Block 的“烤面包机”(后来被称为 Blockhead)是对 Turing 提议背后假设最强有力的反例之一。
探索内在机制
图灵测试本意并非实际衡量标准,但它对我们今天思考人工智能的方式有着深远的影响。这一点随着近年来大型语言模型(LLMs)的爆炸性发展变得尤为相关。这些模型以外在行为作为评判标准,具体表现为它们在一系列测试中的表现。当 OpenAI 宣布 GPT-4 时,发布了一份令人印象深刻的得分卡,详细列出了该模型在多个高中及专业考试中的表现。几乎没有人讨论这些模型是如何取得这些成绩的。
这是因为我们不知道。如今的大型语言模型太过复杂,以至于任何人都无法确切说明其行为是如何产生的。除少数几家开发这些模型的公司外,外部研究人员不了解其训练数据包含什么;模型制造商也没有分享任何细节。这使得区分什么是记忆(随机模仿)什么是真正的智能变得困难。即便是在内部工作的研究人员,如 Olah,面对一个痴迷于桥梁的机器人时,也不知道真正发生了什么。
这就留下了一个悬而未决的问题:是的,大型语言模型建立在数学之上,但它们是否在用智能的方式运用这些数学知识呢?
争论再次开始。
布朗大学的 Pavlick 说:“大多数人试图从理论上推测(armchair through it),”这意味着他们在没有观察实际情况的情况下争论理论。“有些人会说,‘我认为情况是这样的,’另一些人则会说,‘嗯,我不这么认为。’我们有点陷入僵局,每个人都不满意。”
Bender 认为这种神秘感加剧了神话的构建。(“魔术师不会解释他们的把戏,”她说。)没有恰当理解 LLM 语言输出的来源,我们便倾向于依赖对人类的熟悉假设,因为这是我们唯一的真正参照点。当我们与他人交谈时,我们试图理解对方想告诉我们什么。“这个过程必然涉及想象言语背后的那个生命,”Bender 说。这就是语言的工作方式。