这是一个人工智能系统如何诞生的故事,已经实现的科技与算法背后,是更深远的哲学问题。
关于一群人在时代浪潮中的选择,他们如何探索自己,如何探索同类,又如何探索机器与人类的未来。
文|金钟
编辑|宋函
操作系统飞机即将落地,脚下是宽阔的俄亥俄河河口,森林与山地环抱之中,匹兹堡的轮廓出现了。这座城市,曾因钢铁繁荣了百年之久,又在上世纪70年代迅速衰落,与底特律、克利夫兰、芝加哥并称为美国的「工业锈带」。如今,它因为在人工智能领域的领先地位,有了新的声名。
出了机场,5位来自中国的旅客直奔位于匹兹堡郊区的卡内基梅隆大学。这是一所在全美计算机科学排行榜上名列第一的大学,12位图灵奖得主和20位诺贝尔奖得主在这里度过了他们的大学时代。
6月的校园,草木茂盛,参观计算机科学学院时,这5位中国旅客深受震撼。来自语言技术研究所的女教授Rita Singh向他们展示了自己研发的音频分析算法,她可以通过一段电话录音,推算说话者的性别、身高、体重甚至面容,推断通话发生的地点是否有窗户、墙体的材质,并根据当地电网的电压波动,推算通话发生的物理位置及通话时间。这个算法Rita Singh研究了20年,如今已被美国的政府使用。
这是2017年夏天,中国手机厂商vivo核心技术团队的美国之旅。Vivo CEO沈炜,带着核心团队在美国东、西海岸拜访了两周之久。
「虽然我们一直在做这方面的研究,但科研机构在AI技能、算法方面的成果,还是让我们重新认识了这个行业。」一起赴美的vivo人工智能负责人周围发现,很多前沿的研究,像声音、机器视觉、语义理解,在这些优秀的科研机构里面已经沉淀上十年的时间了。「人工智能时代到了。」
赴美前,中国棋手柯洁和人工智能机器人AlphaGo刚刚在乌镇对战。在这场比赛里,排名世界第一的年轻棋手,曾在中途躲在宣传板后失声痛哭,直到20分钟后裁判长找到他。这场顶尖级比赛的意义太复杂,它不仅关于围棋,还关于全体人类对科技、对未来、对自我认知的拆毁与重塑。更是一种宣告——人工智能时代真的到来了。
对一直站在科技最前沿的手机行业,这个结论同样成立。这也是为什么在回国后,沈炜做了两件事:一,让技术人员再去美国拜访;二,重新规划扩建自己的人工智能团队。沈炜认为,因为有了人工智能,手机完成新的代际更替,从原来的Smartphone,变成了真正具备智慧的产品。
vivo的管理层曾一起观看过斯派克·琼斯导演的电影《Her》。那是一个爱情故事,孤独的男主角爱上了他的操作系统Samantha。在片中那样一个危机四伏的后现代社会里,这个温暖又怅惘的故事,给了观众痛和甜的体验。
但不仅于此,它如此真切地描绘了一个激动人心的图景,在未来,人工智能助手将陪你一起生活。它体贴温柔、善于沟通,它了解你,感动你,抚慰你,与你建立超越肉身的亲密关系。它是你最好的伴侣,同时也学习你,是你更完美的一个自我。
vivo的管理层不是唯一被Samantha打动的人。早在8年前,苹果创始人乔布斯就已看到了浪潮。那一年,苹果花2亿美金买下Siri的创始公司。在Siri创始人之一Dag Kittlaus的客厅里,他们聊了三个小时关于未来的超现实主义话题,乔布斯认为,Siri绝不是一个搜索工具,而是一个人工智能助手。而他们对这个助手的想象,就是Samantha。
那时所有人都坚信,「Siri最终会在宇宙中留下自己的痕迹。」
Jovi2018年3月19日,距离美国之旅已经过去了9个月时间。那几位当时被AI趋势打动的中国旅客,交出了自己的答卷。
在这一天乌镇的发布会上,vivo推出了新手机X21,手机里已经有了一个名为Jovi的智能助手。这就是他们的Samantha。
单看新手机的外表,已经很炫目了。这两年大热的全面屏、屏幕指纹解锁、面部识别,它都完成得很漂亮。用指纹解锁的瞬间,你可以看到电路板上有闪亮的电流流过。新的广告片里,是时下最受关注的年轻明星鹿晗、周冬雨和彭于晏。发布会上,穿着衬衣、年轻俊朗的产品经理侃侃而谈。
但这些都没有Jovi来得意义深远,Jovi生活在X21中,这是它的第一个版本,可以在13个具体的场景之下给用户帮助:你定了车票、机票,它会提醒你时间、目的地天气和机场路况;你要上班,起床了它就会告诉你路况和路线,这是根据你长久以来的出行习惯;如果你喜欢看球赛,它会帮你跟踪欧冠和NBA赛事;它能在你出行前,为你安排行程。
智能机时代,人们已经习惯了打开一个个孤岛般的App,Jovi的工作就是打破这些孤岛,整合这些数据,了解你、模拟你,它的终极目标是成为第二个你,甚至比你更了解你自己。
vivo品牌战略总监黄善一,是Jovi整个品牌设计的负责人。在接到任务的第一刻,他就在想AI品牌如何和vivo形成一个有机整体。
「Joy?magic?vivo的人工智能应该是什么样的?」黄善一拿着这个问题,反复地问自己、问团队,也不断地「拷问」人工智能团队。这个过去一直在宝马汽车从事品牌战略的韩国欧巴,在2017年进行了一次人生职业规划的转身。从汽车到手机,产品形态发生了变化,但黄善一坚信用户的需求不变。
「Join,enjoy」,Jovi一呼即出,这就是vivo人工智能想给消费者带来的感受,「快来加入我们吧,join这个年轻时尚的圈子,enjoy贴心的提醒以及拍照和游戏的伙伴,这就是我们vivo的人工智能——Jovi。」黄善一说。
最初,Jovi是不够聪明的,它需要人去训练,需要长久的陪伴。你使用的时间越长,操作的次数越多,它对你的画像越精准,操作越合你心意。这后面的本质是算法,是vivo超过一万台服务器的日夜计算。还有语音的识别,语义的分析,机器的自主学习。
这也是国内首个手机内置的人工智能助手。它的操盘手周围,是vivo公司13年的老员工,曾经的程序员、软件工程师,如今vivo人工智能总负责人。他是个安静的人,一张圆脸,戴一副眼镜,说话很轻。
在创造Jovi的9个月里,很难想象他经历了什么。
每一步都走得很难。人工智能的关键在于算法,伟大的头脑写就他们。周围知道,许多优秀算法都是在大学的实验室里孕育的。他们按照一个个榜单,如机器视觉、语义理解,去拜访国内前十名的大学。哈工大的语义实验室,是全球范围内的第一名,负责的刘挺教授到珠海开会,周围就带着人在酒店等着。
算法有了,实现它的功能,需要器件。芯片、麦克风、摄像头、屏幕,都来处不同。他们一家一家去谈,挑的都是最顶尖的产品。除此之外,还要兼顾消费者需求、组织、数据……
许多大公司喜欢建造一个封闭的体系,这是一个安全的选择。但vivo的想法不同,在周围看来,人工智能时代,不是企业做一个芯片、做一个算法或者做几个产品,就能把这件事情做好,手机厂商的本质是平台,「汇集这个行业里面最优秀的器件,最优秀的算法,最优秀的垂类能力和服务给消费者。」
最艰难的抉择还不在这里,而在于打破他们原有的盈利模式——手机预装软件是手机厂商重要的收入之一,如果Jovi得到大规模使用,手机APP将会不再那么重要,手机厂家现有的应用分发的盈利模式也将被改变,但服务与应用将会直达,用户将会因此得到更好的生活体验。
时间到了vivo的管理层有自己的考虑。
他们都是一群手机行业的老人了。周围工作18年,做手机13年,而管理层的其他成员在行业里甚至超过了20年。这个行业繁花似锦,竞争与迭代的速度远超往日。他们知道,即使剥皮见骨,人工智能,也是不得不打的一仗。
我们聊起创业史,那是整场谈话中周围最兴致勃勃的时刻。问他是否还记得当年vivo的办公地址,他飞快背出「深圳科技园南区R2-B楼」,怎么能忘记,那是一群年轻人付出的上千个日夜。
2005年,功能机的时代,周围到vivo做的第一款手机,第一次有了mp4,那个年代,彩铃和MP3是最流行的技术,MP4是完全领先的功能,那是行业里了不得的进步。但你能感觉到世界在慢慢变化。2006年,CEO沈炜已经看到智能机的未来不远,让周围拉着9个刚毕业的工程师,开始做实验。
在那三四年,做出一个有操作系统的Linux手机,是这群工程师唯一的职业理想。Linux,是一套免费使用和自由传播的操作系统,在由它发展而来的手机操作系统 Android出现之前,它是无数软件工程师的方向。
坐享成熟的Android和IOS系统的这一代年轻人们无法想象,在当时,做一台智能手机有多难——就像上帝创造世界,你要从无到有创造它,还要试图让它正常运转。
他们花了2年时间,移植linux到嵌入式CPU上,自己编写系统通信总线,编写窗口管理器,编写一整套的用户界面,几百个日夜,终于完成了样机,但是CPU很慢,C 完成的系统效率也不高,样机看起来体验很不好。把宝贝一样的成品拿过去给CTO施玉坚看,施戳了一下,隔了400毫秒,拨号界面出来了,他说了一句,「嗯,有点慢。」
「那句话,对我打击很大,很大很大,我跟施总做了13年以上的同事,那是他说得最重的一句话,当时我眼泪都要下来了。我认为是行业里面优化得最好的手机,400毫秒已经能出一个拨号界面,我觉得很厉害了。」周围说来,语气激动,仍为当年那个年轻的程序员感到委屈。
不过,改变很快就来了。2007年,谷歌推出了Android,这是一个开源系统,他们飞速迭代,很快把Linux系统甩在了身后。vivo用了Android,周围说自己是一个「懂得感恩的程序员」,他成立了谷歌在深圳的开发者社区,还帮谷歌在中国推广Android。在社区论坛里,现在都可以看到他当年的ID:Wei Zhou。
同年6月,初代苹果手机也来了。它被人们视为真正推开了智能手机时代的大门。全球手机市场的竞争,进入了新的阶段。
2014年夏天,vivo刚入职的产品经理洪杰鸿被派到了郑州的二七广场,在正式工作之前,他需要去手机卖场呆一段时间,了解行业与用户的状态。那一年多,正是各大手机厂家酣战与转型的关键时刻。在这个典型的二线城市商场,他看到了变化的发生。
最初,厂商们在硬件上比拼,比如屏幕大、续航好、像素高,这会成为用户购买手机的关键。渐渐的,这些要求每一家厂商都有能力去满足了,体验和软件成了线下厮*的关键。用户关心什么功能,他们就去更多地实现它,比如拍照,可以逆光,可以美颜,还可以双摄。但很快,这些功能也做到了极致。纵观整个智能手机领域,大家的差距已经越来越小。
那下一步的竞争在哪里?在2017年5月的谷歌开发者大会上,谷歌直接把公司未来战略定在了人工智能上,「机器学习」是他们提到最多的词语。
事实上,在此时,vivo公司的整个供应链条、所有的厂商,甚至是整个中国,所有的资本与热钱,都已同样进入人工智能的浪潮之中。
时间到了。这家在业内以低调、谨慎甚至保守出名的公司,在长时间的观望之后,也做出了入局的决定——看明白了,用人工智能技术去整合硬件、软件与服务,可能是未来十年他们能抓住的最大机会。
他们要做的不是一个功能,而是一个系统,「哪怕费力一点也要做,因为你绕不开。语音交互是最自然的一个交互方式。为什么要取一个名字叫Jovi?你必须把它形象化。用户是需要重新认识和适应的,要让更多的用户慢慢去用它,习惯去用这个东西。」
机器之心让更多人接纳人工智能,并不容易。从1950年曼彻斯特大学校园里的艾伦·图灵提出「机器能思考吗」这个问题至今,人类从未停止怀疑,人与机器之间,具有灵性的血肉之躯与程序锻造的钢铁之间,能互相理解吗?
没人能给出一个确定的结论。但已知的是,vivo在预测你是否会抛弃正在使用的手机时,准确率已经达到了86%。究竟是什么原因,或者是什么原因的叠加,会使你抛弃它?我们不知道,但机器知道——「人操心的事情只有几个维度,但可能500个维度都会影响,你操心不过来,但你可以让一个小型机把这500个参数全部运算一遍,通过机器学习,它就会给你答案。」
如果要从技术层面来解释人工智能,其实并不难。卡内基梅隆大学计算机科学系的教授邢波在去年的一次演讲中描述了人工智能研发的过程——首先是取得数据,第二是明确你要做的功能,比如做图像识别、下棋或者机器人。再往下就是算法,它用来解决这个题目。再就是计算设备,去实现软件。再往下是一套程序,对接硬件和软件。
对中国的手机厂商来说,取得数据容易,但问题的关键在于他们怎么去知道人们对人工智能的需求。更深远一些,这个问题指向的是,人如何理解人,又如何使用机器理解人。正如台湾金马奖获奖电影《大佛普拉斯》里的旁白:现在已经是太空时代了,人们可以登上月球,却永远无法探索人们内心的宇宙。
产品经理洪杰鸿,负责的就是研究消费者,洞察他们的需求。他每个月有三分之一的时间都是在与消费者当面沟通,接触到的是这个时代人们热腾腾的生活。时间久了,他总结出来一些东西,比如:「很多城市的这种消费者喜欢健身时拍照,是因为健康吗?不是。是因为想发朋友圈。」
他还发现,国家的政策也会对消费者需求产生影响,比如二胎政策放开之后,给孩子拍好照片成了他们的需求。孩子不好拍,他们会动,会变,用户想记录孩子的状态,想分享给别人,还不能暴露太多信息。
这些需求因人而异,很难总结,很难量化,一次调研往往要花三个月以上的时间。在研发Jovi时,周围因为上线时间而焦虑,忍不住和洪杰鸿发了几次火,问他:「你到底什么时候才能把需求给我?」但洪杰鸿仍觉得不够了解消费者,直到反复验证过后,才把需求转给技术团队——在现阶段,拍照和游戏是用户比较看中的功能。
需求之后,就是算法。这是这个行业的核心,也是竞争最激烈、最残酷的领域。如果没有大量的数据去训练,算法也无法发挥效果。正因为拥有巨大的数据入口,vivo接触了中国人工智能产业大量的独角兽公司、最杰出的年轻人。
洪杰鸿也发现了这群人的改变。最初他们更理想主义,或者说更geek,一个商务带一个技术去找他谈,谈的都是参数、测试。现在往往会加一个产品经理,开始谈需求,谈这个算法如何真正落到现实生活中。
远大前程算法、器件与数据的组合,能够迸发出多大的力量,乐观者有之,唱衰者亦有之。
关于此事最著名的争论出现在硅谷大佬扎克伯格和伊隆·马斯克之间。马斯克很早就对人类使用人工智能的方式担忧,扎克伯格在去年的一次直播中隔空回应,对AI鼓吹末日论的人是不负责任。马斯克当仁不让,在Twitter上回击,「我和扎克伯格讨论了此事,他对这事懂得太少。」
就在采访周围的前一天,在美国亚利桑那州,49岁的伊莲·赫兹伯格在过马路时,被一辆Uber无人驾驶的汽车撞倒并最终死亡。警方要求Uber停止了无人驾驶汽车项目。
所以,人工智能的前程,也成为我们这场访谈躲不开的话题。
但事实上,Jovi的「父母们」都是务实主义者。在他们看来,现在手机应用的人工智能,包括Jovi,都才刚刚起步,离真正的「通用人工智能」还距离很远。
这也是为什么,在3月的发布会上,Jovi只是被短暂提及——因为它还没有足够成熟,还需要时间去训练。半年后、一年后,它将会是崭新的面貌。
但身处这个行业的人们,已经看到了更远的未来。
比如前段时间,周围的一位家人因病晕倒。这让他开始思考新的问题:如今我们的摄像头,可以是红外,也可以做超声波,只要设计一个算法,它便可以在你看屏幕时感知和分析你的心跳、心率。「都看到你的心率、心跳不正常了,其实完全可以建议你提前就医,对不对?」麦克风也是一个道理,如果你愿意,它可以听到你咳嗽的声音、打呼噜的声音,也可以给你很多建议。
这不是空谈。这些设想全都基于现在已经可以量产的摄像头和麦克风,和已经可以实现的算法。
回到位于中国东莞的vivo厂区,他们要做的事情,是4个字,确保交付。如果确定要做监测心跳的功能,那么第一步,去定制摄像头,第二步,扫描全球的算法,安排好时间表,直到它按时上市。一个一个功能,去把Jovi血肉丰满,直到接近你的自我。
采访的末尾,我提到一个场景。人工智能发展到未来,假如某天我即将乘飞机出差,但是我收到短信,告诉我家人生了重病。人工智能通过分析我所有的通话记录、照片等信息,得知我是一个很看重家庭的人,同时也是一个工作狂,那么它是给我推送去机场的路况,还是去医院的路况?人工智能作为另一个自我,它能超越简单的服务功能,而拥有真正的共情能力吗?
周围的回复很简单。在这整件事情里,人工智能可以切中几个点来做。一是给用户画像,只要用户隐私授权,机器会为人的经济能力、社会属性、性格特征、对家庭的看重程度打分,这已经在逐渐实现。
再就是分析权重。如果这两件事要同时做,无非就是这两个属性的权重和参数的博弈。如果亲情权重大,那就去医院,中断你的出差,它会给你推送退改机票的链接,帮助你一键退票。
「对机器来说,对智能来说,它是很简单的一个逻辑。」但制造人工智能的人们始终明白,内心里的切磋琢磨,关心和爱,不可量化,不可模拟,机器永远无法替代。
文章首发自人物(ID: renwumag1980)