优惠头条

精彩的96核12通道DDR5!AMD Zen4 EPYC架构的秘密

电子数码

2022-11-14

近日,AMD正式发布了代号为“Genoa”(热那亚)的第四代骁龙EPYC 9004系列处理器,面向服务器、数据中心、高性能计算、人工智能等领域。

之前我们已经介绍了EPYC 9004系列的型号规格、整体特点、性能和能效,但是关于它还有很多层面的东西可以挖掘,包括架构、SoC、内存、小芯片、CXL等等。

今天,我们就来详细说说。

一、Zen4架构

EPYC 9004系列基于Zen4架构,与台式机锐龙7000系列相同,但针对服务器和数据中心应用进行了优化。

总体来看,考虑33种不同的服务器负载,Zen4架构的IPC比Zen3高14%左右,比锐龙7000系列高1%。

不同模块的贡献都差不多,最大的是前端部分,其次是加载/存储、分支预测、执行引擎和L2缓存。

架构的概述,以及与Zen3相比的变化细节,几乎与桌面版Zen4相同。这里就不赘述了。有兴趣的话可以参考我之前的分析。

AVX-512指令集其实一模一样,只是在服务器数据中心显然更如鱼得水,作用更明显。

根据AMD提供的数字,相比双通道96核的老旗舰EPYC 7763,双通道64核的EPYC 9654,得益于规格和性能的提升,尤其是AVX-512指令集的加持,NLP吞吐量、物体检测吞吐量和图像识别吞吐量分别提升了约4.2倍、3.5倍和3倍!

安全性也更加丰富。安全加密虚拟化(SEV)方面,除了继续支持SME、SEVES和SEV-SNP,内存加密升级为AES-256-XTS,支持1006加密客户端和多主机密钥(SMKE)。

此外,加强了对客户端的保护,尤其是免受SMT攻击。

二。SoC概述

这就是EPYC 9004系列的整体布局和核心特点。

这一代仍然没有独立的芯片组,而是一个完整的SoC,延续了chiplet的设计,包含一个IOD和多达12个CCD。

每个CCD集成8个Zen4 CPU内核和32MB三级高速缓存,总计多达96个内核和384MB三级高速缓存。还有8 CCD和4 CCD版本,分别高达64核和32核。

IOD集成了DDR5内存控制器、PCIe 5.0/CXL 1.1+控制器、第三代Infinity Fabric控制器和安全处理器。

内存12通道,最高频率4800MHz。PCIe 5.0可以提供128个。这两部分后面会详细介绍。

包装换成新的SP5,尺寸增加到75× 72mm左右。

在单通道配置下,EPYC 9004系列可配备多达24个DDR5内存,每通道2个内存(2DPC),并可提供128个PCIe 5.0和8个PCIe 3.0通道。

双通道配置下,只能安装一个内存通道(1DPC),最多12个。PCIe 5.0对外可用通道最多160个,每个通道80个,互联通道48个。此外,还有12个PCIe 3.0频道,每个频道6个频道。

中频总线已经升级到第三代,最高带宽32Gbps,可以选择三四条链路。前者是默认的。此时,相应系统可用的PCIe 5.0频道数量仅为160个。

如果选择4个链路,每个处理器将向对方贡献一半的PCIe 5.0通道,剩下128个通道可供系统使用,与上一代相同。

当然,同样的128块,即使从PCIe 4.0升级到PCIe 5.0,可用带宽也会翻倍。

60个PCIe 5.0频道能做什么?那很随意。

XGMI,PCIe,SATA和CXL可以随心所欲地玩。X16,x8,x4,x2,x2可以任意拆分。每个x16最多可以连接9个PCIe设备(1个x8和8个x1)。

在I/O性能方面,EPYC 9004支持新的高级虚拟中断控制器(AVIC),提高了虚拟中断的性能和中断处理的吞吐量,包括CPU内核和SoC级别。

使用PCIe 4.0 x16 200 Gbps (20万兆)网卡,默认情况下效率可超过90%,最高可达94%,单向可运行至188Gbps,双向可运行至375Gbps。

有了PCIe 5.0 x16 400 Gbps (40万兆)InfiBand高速网络,在标准配置下效率也能超过90%,甚至高达99%,能跑出396Gbps。

第三,记忆

内存方面,就像台式机锐龙7000系列一样,EPYC 9004只支持DDR5,可以带来更高的频率和带宽,更低的电压和功耗,更好的电源管理(板载PMIC),更多的通道和更低的延迟,更大的容量,更好的校验纠错(板载ECC),等等。

EPYC 9004系列支持12个DDR5内存通道,一个通道最大容量为6TB(每通道512GB)。

在4800MHz的标准频率下,理论峰值带宽可达460 GB/s。

在延迟方面,EPYC 9004略有增加,但影响并不显著。SoC约73ns,设备约45ns,总计约118ns,分别比上一代增加了3ns和10ns。

EPYC 9004还支持单向多个内存节点(NP ),可以成组管理12块内存,以进一步优化性能。

第四,小芯片布局

EPYC 9004仍然是chiplet芯片布局,其中CCD的最大数量从上一代的8个增加到12个,布局更加紧凑,对带宽和延迟的要求更高。

因此,小芯片之间的通信通道升级为GMI3,最大带宽为36Gbps,吞吐量加倍,与内部参考频率的比率为20:1。

GMI还为不同数量的CCD提供了宽窄两种模式,其中超过4个cdd为宽模式,充分利用了足够的带宽,小于等于4个cdd为窄模式,提高了效率。

动词 (verb的缩写)巨灾超赔分保

CXL,Compute EXpress Link,是缓存一致的高速互联的行业标准,主要用于处理器、内存扩展和加速器。

CXL有三种工作模式。EPYC 9004不支持第一种(针对NIC)和第二种(针对GPU/FPGA/加速器等密集型计算),只支持第三种,即内存缓冲,可以扩展内存带宽和容量。协议是cxl.io和cxl.mem

总的来说,AMD EPYC 9004系列在技术、架构、内存、扩展连接等方面都有所升级。在延续小芯片设计的同时,其整体规格和功能又上了一个大台阶。

此外,Zen EPYC家族还将推出采用3D V-Cache技术的更高性能版本“Genoa-X”,面向云计算服务的“Bergamo”(贝加莫),面向电信基础设施和边缘计算的“Siena”(锡耶纳),形成完整的产品矩阵。

未来,第五代“图灵”家族将再次升级全新的“Zen5”架构!