苹果a9和a11性能差距（苹果a10和a9差距） - 原点资讯

在加载存储方面，我们看到了似乎有四个执行端口：一个加载/存储，一个专用存储和两个专用加载单元。核心每个周期最多可以执行3个负载，每个周期最多可以执行2个存储，但是最多只能同时执行2个负载和2个存储。

这里有趣的是苹果处理内存事务的深度。我们测量了大约148-154个未完成的负载和大约106个未完成的存储，这应该是内存子系统的负载队列和存储队列的等价数字。毫不奇怪，这也比市场上的任何其他微体系结构都要深入。相比之下，AMD的Zen3和英特尔的Sunny Cove分别为128/72和128/ 64。英特尔在这里的设计与苹果相差不远，实际上这些最新的微架构的吞吐量是相对匹配的——如果苹果将这种设计部署到非移动内存子系统和DRAM上，那将是很有趣的。

在这一代的Firestorm核心方面，最大的改进就是TLB。L1 TLB从128页增加了一倍，达到256页，L2 TLB从2048页增加到3072页。在当今的iPhone上，这是一个绝对过大的更改，因为页面大小为16KB，这意味着L2 TLB覆盖48MB，甚至超过了A14的缓存容量。随着苹果将微体系结构转移到Mac系统上，与4KB页面兼容并确保设计仍提供足够的性能，这将成为苹果为何选择在这一代进行如此大规模升级的关键部分。

苹果a9和a11性能差距,苹果a10和a9差距(13)

在缓存层次结构方面，我们早就知道苹果的设计是可怕的，而A14 Firestorm内核延续了这一趋势。去年我们曾猜测A13有128KB的L1指令缓存，类似于我们可以测试的128kbl1数据缓存，但是在Darwin内核源代码转储之后，苹果证实了它实际上是一个巨大的192KB指令缓存。这绝对是巨大的，比竞争对手的Arm设计大3倍，比目前的x86设计大6倍，这可能再次解释为什么苹果在非常高的指令压力工作负载（如流行的JavaScript基准测试）方面表现出色。

巨大的高速缓存似乎也非常快– L1D以3个周期的负载使用延迟进入。我们不知道这是否是如三星核心所描述的那样巧妙的负载级联，但是无论如何，对于如此大的结构来说，这是非常令人印象深刻的。AMD具有32KB的4周期缓存，而英特尔最新的Sunny Cove在将大小增加到48KB时看到了5周期的回归。慢频或快频设计的优缺点值得深思。

在L2方面，Apple一直采用两个大核心共享的8MB结构。这是一个非常不寻常的缓存层次结构，与其他人使用的中间大小的私有L2和更大的较慢的L3形成对比。苹果在这里不理会规范，而是选择大型而快速的L2。奇怪的是，这一代A14看到了大核的L2在访问延迟方面进行了回归，从14个周期回到了16个周期，还原了A13所做的改进。我们不确定为什么会发生这种情况，我确实看到标量工作负载有更高的并行访问带宽进入缓存，但是峰值带宽似乎仍然与上一代相同。另一个假设是，由于Apple在内核之间共享L2，因此这可能是Apple Silicon SoC发生变化的指标，因为只有两个以上的内核连接到单个缓存，这与A12X代很相似。

苹果已经在其SoC上使用大型LLC了好几代了。A14上，这似乎又是一个16MB的缓存，服务于SoC上的所有IP块，当然对CPU和GPU最有用。相对而言，这种缓存层次结构并不像其他设计的实际CPU-cluster l3那么快，而且近年来，我们看到越来越多的移动SoC供应商为了提高功率效率而在内存控制器前使用这种LLC。苹果会在更大的笔记本或台式电脑芯片上做什么还不清楚，但我认为我们会看到类似的设计。

我们已经讨论了苹果设计的更多具体方面，比如它们的MLP（内存级并行）功能，而A14在这方面似乎没有改变。我注意到A13的另一个变化是，新的设计现在也利用了Arm更轻松的内存模型，它能够自动优化流媒体存储到非临时存储中，模仿Cortex-A76和Exynos-M4中引入的变化。从理论上讲，x86设计无法实现类似的优化，如果有人尝试这样做，将非常有趣。

苹果a9和a11性能差距,苹果a10和a9差距(14)

当然，关于拥有非常广泛的体系结构的古老观点是，你不能把时钟设到与比它窄的东西一样高的地方。这在某种程度上是正确的;不过，我不会对苹果的设计在更高功率设备上的性能做出任何结论。在新款iphone的A14上，新的Firestorm内核可以达到3GHz的时钟速度，当有两个内核同时工作时，时钟速度可以降至2.89GHz

我们将稍后详细研究功耗，但是我目前看到Apple受实际手机散热的限制，而不是微体系结构的固有时钟上限。新的Firestorm内核现在的时钟速度与Arm上其他移动CPU微体系结构的速度大致相同，即使它的设计范围更广。因此，由于设计更加复杂而不得不降低时钟速度的论点似乎也不适用于这个实例。苹果不仅可以在笔记本电脑这样的高温度封装设备上做什么，还可以在Mac这样的壁挂式设备上做什么，这将是一件非常有趣的事情。

主导移动性能

在我们深入探讨x86与Apple Silicon的争论之前，有必要更详细地研究A14 Firestorm内核在A13 Lightning内核基础上的改进方式，以及详细介绍新芯片5nm工艺的功率和功率效率改进节点。

在这里的比较中，流程节点实际上是一个通配码，因为A14是市场上第一个5nm芯片组，紧随其后的是华为Mate 40系列的麒麟9000。我们碰巧有设备和芯片在内部进行测试，对比一下麒麟9000（N5上的Cortex-A77 3.13GHz）和Snapdragon 865 （N7P上的Cortex-A77 3.09GHz），我们可以从某种程度上推断出处理节点在功率和效率方面有多大影响，将这些改进转化为A13与A14的比较。

苹果a9和a11性能差距,苹果a10和a9差距(15)

从SPECint2006开始，我们没有看到A14分数有什么不寻常的，除了456的巨大进步。实际上，这并不是由于微架构的飞跃，而是由于Xcode 12中新的LLVM版本进行了新的优化。在这里，编译器似乎使用了类似于在GCC8上发现的循环优化。A13的分数实际上已经从47.79提高到了64.87，但我还没有在整个套件上运行新的数字。

对于其余的工作负载，A14通常看起来像一个相对于A13的线性进程，因为时钟频率从2.66GHz增加到3GHz。IPC的整体涨幅在5%左右，略低于苹果的前几代产品，不过时钟速度的涨幅要大于通常的水平。

新芯片的功耗实际上是一致的，有时甚至比A13更好，这意味着这一代的工作负载能源效率已经看到了明显的改善，即使在峰值性能点。

与当代的Android和以Cortex-core为核心的SoC相比，苹果的性能似乎相当不平衡。最突出的一点是内存密集型、稀疏内存，其特点是工作负载（如429.mcf和471.omnetpp），苹果的设计功能远远超过性能的两倍，尽管所有芯片都运行着类似的移动级LPDDR4X/LPDDR5内存。在我们的微体系结构调查中，我们发现Apple设计上存在“记忆魔力”的迹象，我们可能会认为它们正在使用某种指针追随预取机制。

苹果a9和a11性能差距,苹果a10和a9差距(16)