如果说过去的阿里云,本质还是用一套软件(飞天云计算操作系统),弹性化、虚拟化地调配庞大的计算资源。以倚天710芯片和今年6月发布的CIPU(云基础设施处理器)为标志,阿里云正在进入硬件,重构硬件体系。
以CIPU为基础,连接服务器的物理网络可以实现传输能力的倍增,存算分离架构的数据中心,可以提供空前高速的云盘访问能力。CIPU还具有快速接入能力,能通过高效整合,将算力的虚拟化损耗(“虚拟税”)整合降至接近“0”的水平。
两位技术大咖这样解释CIPU:“你已经知道,要让代码跑得快,一靠CPU,二靠I/O。CIPU其实就是一块芯片,可以放到服务器里,也可以抽离出来,让很多服务器共同使用。它最大的作用是对I/O进行了变革。CPU就像抽水机的发动机,功率越高,抽水量越大;I/O就像水管,而CIPU是决定水管粗细的,可以在水管出口处进行加速。同样的代码,进行了I/O加速后,跑出来的性能会更快更强。”
阿里云之所以要做CIPU这样的硬件,也是现实的倒逼。
“云计算的好处不言而喻,但要把几十万、上百万台服务器连起来,变成一台超级计算机。会发现很多瓶颈都在I/O端,也就是这些服务器相互连接的部分。因为CPU擅长计算,但非常不擅长做I/O。而今天的计算有大量工作都需要I/O,绝大多数任务都要跨节点分布式计算才能完成。如果在本地硬盘存一个文件,并不太涉及I/O,但你要存资料到网盘上,就涉及I/O了。单机时代可以以CPU为中心,所有逻辑都让CPU控制。而云计算,要控制很多服务器以及后端的分布式存储一起协作工作,复杂度远远超出一个CPU的能力。所以我们要把协同管理的这部分责任从CPU挪走,将其‘卸载’到CIPU里面,再通过CIPU的加速,让I/O这个瓶颈变得畅通无阻。”
“一个文件包传进来,原来的做法是经过CPU,用CPU去处理I/O。文件包在CPU和内存里转来转去,要很久才能出去。CIPU芯片就是把在CPU里转来转去的这些事情(逻辑)打包,变成一个单独的芯片进行直通。以后,凡是CIPU更合适做的IO链路上的计算任务都由CIPU做,这样CPU就空出来了,可以处理正常的、它善于处理的逻辑,整个程序就会跑得更快。打个比喻,原来是整列火车靠火车头带动,也就是CPU的算力,同时所有轮子的协作也靠CPU。而现在像高铁,用CIPU来控制每一个轮子,各自独立进行协同,这样速度就上来了。”
至此,我大致明白了“全新的计算体系”的含义。
曾几何时,IOE(IBM的小型机、Oracle数据库、EMC存储设备)是谁都不敢撼动的架构,但确实无法满足阿里电商的需求,而且成本高得不可承受,于是阿里坚决进行了系统性的重构,“去IOE”,代之以在开源软件基础上开发的系统,用成本更加低廉的软件MYSQL替代Oracle,用PC Server替代EMC2、IBM小型机,等等。
这一次,阿里云也是要从基本架构上突破,它要将自己的飞天操作系统以软件定义的方式从全部在CPU里跑,到拆出一部分任务到自研的CIPU上跑。
根据在30多个场景中的测试,新架构的效果非常明显。比如缓存的场景,各种互联网业务都涉及到缓存,有一款开源的数据结构存储系统叫Redis,在相同的CPU配置下,通过CIPU加速,其服务吞吐能力可以提升100%,性能翻番,让这个场景的计算成本下降一半,延迟降低,应用体验上升。
另一个例子,是通过CIPU的eRDMA能力,数据库能实现多节点全局一致性读的超高性能。这有什么价值呢?举例来说,电商经常会出现把客户的库存超卖的问题,你得打电话给顾客,说我们超卖了,请你把订单关掉。但有些顾客就是不同意,说我已经买成功了。比如,电商卖一个杯子,准备了100个,打折销售,结果消息传出,涌进几十万人来抢,而库存只有100个。系统的要求非常严格,只能是一个人进来,扣掉他的库存后,再放第二个人进来,以此类推,否则就会大乱。但这样做,一个个人进来,效率很低,必须牺牲性能作为代价。而用CIPU对这段代码加速后,还是一个个人进来,但效率可以提高5到20倍,大幅度降低了这个场景下的计算成本。
今天,阿里云在云上,更多地采用自研CPU CIPU的完整计算体系架构解决方案,能全方位提升计算效率。
这注定是一条漫长的路,但这种旨在从根本上改变人们习以为常的计算架构的探索,让我充满敬意。
百年大计,到了一个关键时刻
阿里云追求的全新计算体系,不仅发生在硬件上,也发生在软件和终端商。
张建锋说,新兴的软件开发方式正在崛起,软件架构全面Serverless化(无服务器运算)是大趋势;软件开发也不再是程序员的专利,低代码可以让未来80%的应用由业务人员自己直接开发出来;未来所有软件都将是AI化的,大模型开源将加速AI真正普及;在终端,由于云端加速融合,让终端突破了物理限制,不仅推动手机、电脑、汽车、音箱会变成计算机,未来万物皆是计算机。
全新的计算体系带给我们全新的想象,而且很多想象已经化为现实。
世纪联华是最早试水Serverless的新零售代表,促销准备时间从周级缩短到小时级,研发运维提效30%,成本下降40%,真正把促销活动变成常态。
流媒体平台南瓜电影,在Serverless架构下,“云上资源想弹多少弹多少,想什么时候弹就什么时候弹。”峰谷时按需自动缩容,总成本下降40%,运维效率提升10倍,从容应对突发流量。
广西柳钢冷轧厂退火车间的工人张亮,用10分钟就在钉钉上开发了一个危险区域管理应用,只有那些有作业任务的人或设备点修人员,才能在扫脸后进入。
|柳钢集团冷轧厂库位工查看钉钉应用
四川省古蔺县皇华中学的乡村数学老师彭龙,在钉钉上用低代码开发出了43款软件,最快1小时就能搭建一个应用,以极低成本搭起一所数字化校园。
专注于人机交互技术的产品公司Rokid,在推出的AR眼镜中接入了阿里云的“无影”架构,利用云上算力,用户打开85克重量的眼镜,就能在眼前的虚拟现实画面中与人聊天、办公,还能做3D渲染、大数据编程等复杂工作。(注:“无影”架构在本地没有主机,也看不见电脑CPU和硬盘,所有硬件设备都集中在云端的数据中心。)
小鹏汽车与阿里云合作建成了中国最大的自动驾驶智算中心,将自动驾驶核心模型的训练速度提升了约170倍。
……
世界正在迅速云化,也必须云化。
现在,很多企业和机构对云计算的使用,还是作为一种弹性资源,脑子里还是装着“我有多少服务器”等资源概念。而未来的趋势,一定是从购买资源到购买能力。其重要标志就是“按量付费”。就像用电,过去自己买柴油、发电机,一次性买齐设备,自己去发电。但现在没人这么做了,因为电网更稳定、更便宜、更安全。
“这还需要时间。一些政府的采购清单里还没有云计算,只有服务器。他们还是要持有资产。而云计算天然的属性就是你不需要持有资产,用多少,算多少,不用就换,让给别人用。”
“但变化已经很快。以前做电商,都是买很多服务器,构建一个很复杂的分布式系统,招募很多的工程师,给他们的薪酬和对他们的要求都很高。而今天的新电商公司,他的IT就在云上,用云厂商的数据库、缓存、消息系统等等,构建整个电商体系。他的思路是,我就用云计算的服务好了,用户量上来时,你们应该去扩容,而不是要我去买更多服务器扩容。这是新一代创业者普遍的做法。甚至有VC说,如果一家创业公司不选择云计算,绝对不能投资,因为他们还是很老的思维。这是一个趋势。”
阿里云的两位技术大咖最后对我表达了这样的意思:
1、阿里云能成为中国云计算的领头羊,是整个计算体系和构建方式正在发生深刻变化,而这又是因为整个中国的计算基础设施和互联网在迅速发展。阿里云是时代的产物,最早看到了趋势,顺势而为,事半功倍。
2、未来的计算形式会有各种变化,但通过云计算这一公共网络服务客户的方式已经成为越来越多人的共识。一切都会数字化、智能化,将来当我们离开会议室,桌子自己会擦干,椅子自己会摆好,黑板会自己擦掉,甚至一张纸也会智能化,把要点整理好传给你。但所有这些动作都需要控制,都需要算力,都需要云计算。这是一个持续演进的过程,我们还在初级阶段。所谓“全新的计算体系”,也只是将第一阶段的技术模式进行了效率提升。
3、云计算是规模 技术,资金密集、知识密集、技术密集的产业,全球几朵云的竞争将是长期的。竞争的结果,事关国家的数字经济未来。如果我们咬不住,跟不上,创新不了,不仅是自己的挫败,也是对时代的辜负。
5年多前王坚对我说:“大部分人说的趋势不是趋势,只是时髦,就像浮油一样是最容易捞出来的东西。而真正重要的是浮油下面的东西。”阿里云起步后备尝艰辛,屡受嘲讽,靠着死磕的精神走到今天。
“云计算不仅将改变IT产业,也会深刻改变人们的工作和公司经营方式。未来不懂代码就和20年前不会用word一样。”2022云栖大会上,张建锋说。云计算是百年大计,阿里云,为了它所看到的趋势与未来,再出发,从头算。
我还不会低代码,但我愿意说:无论是从数字中国发展的角度,还是从全球算力角逐的角度,百年大计云计算,现在都到了一个关键时刻。