图片来源:法雷奥
法雷奥为宝马开发的自动驾驶控制器,应该是行泊一体的设计,法雷奥是全球最大的泊车控制器厂家,市场占有率近1/4,做自动泊车是法雷奥的强项。
第一代Ride响应者不多,第二代Ride得到了不少欧美车企的认同,包括宝马、奔驰、奥迪、保时捷、Stellantis,也得到了不少主流Tier1的认可,包括法雷奥、德国大陆汽车、博世和Veoneer。国内Tier1中,德赛西威、均胜电子、映驰科技、豪末智行、百度都已经基于SA8650开发了近1年时间;航盛电子、纵目科技、车联天下、MEGA、博泰、福瑞泰克正在导入,所有新兴造车对SA8650都很感兴趣,要不然也不会有如此多Tier1开发基于SA8650的自动驾驶系统。
SA8650基于最先进的4纳米设计,也是高通第一颗车载4纳米芯片。
图片来源:高通
SA8650可能有两个版本,低版本的AI算力是50TOPS@INT8,高算力是100TOPS@INT8。此外还有一个更低的SA8620,SA8620可能也是4纳米芯片,主要挑战英伟达的Xavier。CPU算力为230kDMIPs,与Orin顶配相当,Orin有多个版本,只有顶配的CPU算力是230kDMIPs。推测SA8650是4个Cortex-X3大核心加4个A55小核心,国内芯片受限于成本,在CPU方面都比较节约,最多是8个A55,算力一般是26kDMIPs。CPU远比AI更消耗成本,同时CPU对先进制程的需求是必须的,X3这种级别必须对应4纳米,Orin使用了12个A78AE,全部是大核心,才与SA8650旗鼓相当。
图片来源:WikiChip Fuse
X3比X1有本质提升,X1比A77有本质提升,X2是鸡肋,提升不多,且功耗高。X3是ARM目前最强的架构,X4对应的是3纳米,X5可能对应2纳米,3纳米或2纳米提升不多,但成本增加不少。
SA8650有100TOPS的AI算力,从图上看可能去除了GPU,不过SA8650的图形输出能力很强,最高支持4个屏幕。SA8650可以对应12个摄像头,即8个800万像素,4个400万像素。SA8650功耗大概25-40瓦,超过25瓦就最好采用水冷设计,目前SA8650的设计方案都是水冷。
众所周知,L3/L4很有可能10年内都无法做到,且目前瓶颈不在AI计算,而在存储带宽。举个例子,若自动驾驶运行真正的大模型,假设模型的参数是1750亿,通常用INT8格式来存储LLM权重,以便进行更低延迟的推理、更高的吞吐量和更低的内存需求(比用float16格式来存储要少两倍的内存)。每个INT8参数需要1个字节进行存储。经简单计算可知,模型需要175GB的存储空间,实际会需要180-190GB左右。假设特斯拉用了这么大的模型,特斯拉最新的自动驾驶大脑FSD,不惜血本用上了美光的GDDR6,代号D9ZPR;以特斯拉的16颗GDDR6为例,带宽是56*16=896GB/s,896/175=5.12,即每秒加载5.12次权重模型,即便你的算力是100000TOPs,每秒运算次数也不会超过6次。
所以没必要追求100TOPS以上的算力,至少10年内如此。当然了,高通也有外接的AI加速器,最高可扩展到2000TOPS,这可能需要非常昂贵的HBM3存储,每GB的价格超过20美元,一般需要100GB以上。所有真正高算力AI芯片都使用了HBM存储,HBM存储不仅昂贵,还只能依靠台积电的CoWoS工艺,成本高昂。
高通从第四代起就不单独提供芯片,都以模组形式销售,模组包含一颗SoC,4颗电源管理,2-4颗LPDDR DRAM。根据前文的图片推测,高通的SA8650模组包括一颗SA8650,4颗PMM850U电源管理,2片美光的LPDDR5,1片美光的UFS。美光LPDDR5型号为MT62F3G32D8DV-026 AAT:B,代号D8DHD,8die封装,每片是12GB,速度为7500Mb/s。一片UFS容量可能是256GB,也有可能是三片LPDDR5。还有一片芯片,可能是PCIe接口或温度保护芯片。