基础设施包括哪些方面,基础设施是指哪些内容

首页 > 社会 > 作者:YD1662024-04-20 13:32:54

原文作者:Future3 Campus

原文来源:万向区块链

本文是Future3 Campus AI Web3产业研究报告第二篇,详解基础设施层的发展潜力、叙事逻辑和代表性头部项目。

第一篇:AI Web3未来发展之路(一):产业图景和叙事逻辑

基础设施是AI发展的确定性成长方向

1 爆发增长的AI算力需求

近年来,算力需求快速增长,尤其是在LLM大模型面世后,AI算力需求引爆了高性能算力市场。OpenAI数据显示,自2012年以来,用于训练最大AI模型的计算用量呈指数级增长,平均每3-4个月翻倍,其增长速度大大超过了摩尔定律。AI应用的需求增长导致了对计算硬件的需求快速增加,预计到2025年,AI应用对计算硬件的需求将增长约10%到15%。

受AI算力需求影响,GPU硬件厂商英伟达的数据中心收入持续增长,23年Q2的数据中心收入达到 $10.32B,比 23年Q1 增长 141%,比去年同期增长 171%。2024 财年第四季度中数据中心业务占据83%以上营收,同步增长409%,其中40%用于大模型的推理场景,显示出对于高性能算力的强大需求。

基础设施包括哪些方面,基础设施是指哪些内容(1)

同时需要海量数据也对存储和硬件内存提出了要求,尤其是在模型训练阶段,需要大量的参数输入,需要存储大量数据。在 AI 服务器中应用的存储芯片主要包括:高带宽存储器 (HBM)、DRAM 和 SSD,针对 AI 服务器的工作场景需要提供更大的容量、更高的性能、更低的延迟和更高的响应速度。根据美光测算, AI 服务器中 DRAM 数量是传统服务器的 8 倍,NAND 是传统的 3 倍。

2 供需失衡推动高昂的算力成本

通常来说,算力主要应用在AI模型的训练、微调和推测阶段,尤其是在训练微调阶段,由于更大的数据参数输入和计算量,同时对并行计算的互联性要求更高,因此需要更性能、互联能力更强的GPU硬件,通常是高性能的GPU算力集群。随着大模型的发展,计算复杂度也直线上升,使得需要更多高端硬件来满足模型训练需求

以GPT3为例,按1300万独立用户访问的情况来说,对应的芯片需求是3万多片A100GPU。那么初始投入成本将达到惊人的8亿美元,每日模型推理费用预估费用70万美元。

同时,据行业报道,2023年第四季度,NVIDIA GPU供应量在全球范围内都被严格限制,导致全球市场都出现了明显的供不应求。英伟达产能受限于台积电、HBM、CoWos封装等产能,H100的“严重缺货问题”至少会持续到2024年底。

因此高端GPU的需求上升和供应受阻两方面推动了当前GPU等硬件的高昂价格,尤其是类似英伟达这种占据产业链底层核心的公司,通过龙头垄断还能进一步获得价值红利。例如英伟达的H100 AI加速卡的物料成本约为3000美元,而在2023年中售价已经达到了3.5万美元左右,甚至在eBay上卖出了超过4w美元的价格。

3 AI基础设施占据产业链核心价值增长

Grand View Research的报告显示,全球云AI市场的规模在2023年估计为626.3亿美元,并预计到2030年将增长到6476亿美元,年复合增长率为39.6%。这一数据反映了云AI服务的增长潜力及其在整个AI产业链中所占的重要份额。

根据a16z的估算,AIGC市场的大量资金最终流向了基础设施公司。平均而言,应用程序公司将大约 20-40% 的收入用于推理和针对每个客户的微调。这通常直接支付给计算实例的云提供商或第三方模型提供商——反过来,第三方模型提供商将大约一半的收入花在云基础设施上。因此,有理由猜测当今AIGC总收入的 10-20% 流向了云提供商。

同时,更大一部分的算力需求在于大型AI模型的训练,例如各类LLM大模型,尤其是对于模型初创公司,80-90%的成本都用于AI算力使用。综合来看,AI计算基础设施(包括云计算和硬件)预计占据市场初期50%以上的价值

去中心化AI计算

如上文所述,当前中心化AI计算的成本高企,很重要的一个原因是AI训练对高性能基础设施的需求增长。但是实际上市场上大量仍然存在大量的算力面临闲置的问题,出现了一部分的供需错配。其中主要原因是:

面对以上问题,设计更加符合AI工作的高性能芯片或者专用ASIC芯片是目前很多开发者和大型企业在探索的方向,另一个角度则是综合利用现有的计算资源,建设分布式算力网络,通过算力的租赁、共享、调度等来降低算力的成本。此外,目前市场有很多闲置的消费级GPU和CPU,单体算力不强,但是在某些场景或者与现有高性能芯片一起配置也能过满足现有的计算需求,最重要的是供应充足,通过分布式网络调度能够进一步降低成本。

因此分布式算力成为了AI基础设施发展的一个方向。同时因为Web3与分布式具有相似的概念,去中心化算力网络也是当前Web3 AI基础设施的主要应用方向。目前市场上的Web3去中心化算力平台普遍能够提供相比较中心化云算力低80%-90%的价格。

存储虽然也为AI最重要的基础设施,但存储对大规模、易用性、低延迟等要求使得目前中心化的存储具有更大的优势。而分布式计算网络由于其显著的成本优势,则存在更加切实的市场,能够更大地享受到AI市场爆发带来的红利。

AI Web3基础设施项目的叙事逻辑

我们看到,分布式AI基础设施需求强,且具有长期增长潜力,因此是易于叙事和受到资本青睐的领域。目前AI Web3产业的基础设施层的主要项目基本是以去中心化的计算网络为主要的叙事,以低成本为主要优势,以代币激励为主要方式扩展网络,服务AI Web3客户为主要目标。主要包括两个层面:

1.比较纯粹的去中心化云计算资源的共享和租赁平台:有很多早期的AI项目,例如Render Network、Akash Network等;

2.提供去中心化计算 ML工作流服务:有很多最近获得高额融资的新兴项目,例如Gensyn, io.net, Ritual等;

通过提供比中心化云计算服务更优惠的价格,但配套和使用体验比较相近的服务,这类项目获得了很多头部资本的认可,但同时技术复杂度也更高,目前基本在叙事和开发阶段,还未有完善上线的产品。

代表项目

1 Render Network

Render Network 是一个基于区块链的全球渲染平台,提供分布式的GPU,为创作者提供更低成本,更高速的3D渲染服务,在创作者确认过渲染结果后,再由区块链网络向节点发送代币奖励。平台提供分布式GPU的调度和分配网络,按照节点的用量情况、声誉等进行作业的分配,最大化地提高计算的效率,减少资源闲置,降低成本。

Render Network的代币RNDR是平台中的支付型代币,创作者可以使用RNDR支付渲染服务,服务商则通过提供算力完成渲染作业而获得RNDR奖励。渲染服务的价格会根据当前网络中的用量情况等进行动态调节。

基础设施包括哪些方面,基础设施是指哪些内容(2)

渲染是分布式算力架构运用相对合适且成熟的场景,因为可以将渲染任务分为多个子任务高度并行地执行,互相之前不需要过多的通信和交互,所以可以最大化避免分布式算力架构的弊端,同时充分利用广泛的GPU节点网络,有效降低成本。

因此,Render Network的用户需求也较为可观,自2017年创立以来,Render Network 用户在网络上渲染了超过1600万帧和近50万个场景,且渲染帧数作业和活跃节点数都呈增长的趋势。此外,Render Network 于2023 Q1 也推出了原生集成Stability AI 工具集,用户可以的该项功能引入Stable Diffusion作业,业务也不再局限于渲染作业而向AI领域扩展。

2 Gensyn.ai

Gensyn是一个用于深度学习计算的全球性的超级计算集群网络,基于波卡的L1协议,2023年获得了由 a16z 领投的4300万美元A轮融资。

Gensyn的叙事架构中不仅包含了基础设施的分布式算力集群,还包括上层的验证体系,证明在链外执行的大规模计算是按照链的要求执行的,即用区块链来验证,从而构建一个无需信任的机器学习网络。

分布式算力方面,Gensyn能够支持从多余容量的数据中心到带有潜在GPU的个人笔记本电脑,它将这些设备连接成一个单一的虚拟集群,开发者可以随需访问和点对点使用。Gensyn将创建一个价格由市场动态决定且向所有参与者开放的市场,可以使 ML 计算的单位成本达到公平均衡。

而验证体系是Gensyn更重要的概念,它希望网络能够验证机器学习任务是否按照请求正确完成,它创新了一种更加高效的验证方法,包含了概率性学习证明、基于图的精准定位协议和Truebit式激励游戏三大核心技术点,相比传统区块链中的重复验证方法更加高效。其网络中的参与者包括提交者、求解者、验证者和举报者,来完成整个验证流程。

按照Gensyn 协议在白皮书中的综合测试数据来看,目前其显著优势是:

但同时,分布式算力相比较本地训练,由于通讯和网络问题,不可避免地增加了训练时间,测试数据中,Gensyn 协议为模型训练增加了约 46% 的时间开销

3 Akash network

Akash network是一个分布式的云计算平台,结合不同的技术组件,让用户可以在去中心化的云环境中高效、灵活地部署和管理应用程序,简单地说,它提供用户租赁分布式计算资源。

Akash的底层是分布在全球的多个基础设施服务商,提供CPU、GPU、内存、存储资源,并通过上层的Kubernetes 集群将资源提供给用户进行租赁。而用户可以将应用程序部署为 Docker 容器,来使用更低成本的基础设施服务。同时,Akash 采用“反向拍卖”的方式,使得资源价格进一步降低。按照Akash官网的估算,其平台的服务成本比中心化服务器降低约80%以上。

基础设施包括哪些方面,基础设施是指哪些内容(3)

基础设施包括哪些方面,基础设施是指哪些内容(4)

基础设施包括哪些方面,基础设施是指哪些内容(5)

4 io.net

io.net是一个去中心化计算网络,连接全球分布式的GPU,为AI的模型训练和推理等提供算力支持。io.net刚刚完成了3000万美元的A轮融资,估值达到了10亿美元。

io.net相比Render、Akash等,是一个更加健全、扩展性更强的去中心化计算网络,接入多个层面的开发者工具,其特点包括:

在价格上,io.net官网预计其价格将比中心化云计算服务降低约90%。

此外,io.net的代币IO coin未来主要用于生态内服务的支付和奖励,或者需求方也可以用类似Helium的模式将IO coin燃烧换成稳定币“IOSD积分”来进行支付。

基础设施包括哪些方面,基础设施是指哪些内容(6)

栏目热文

文档排行

本站推荐

Copyright © 2018 - 2021 www.yd166.com., All Rights Reserved.