为横向扩展 AI 基础设施添能助力

AMD Pensando Pollara 400 AI NIC 是我们创新推出的符合超以太网联盟 (UEC) 规范的 AI 网络接口卡 (NIC),适用于全方位加速超大规模数据中心跨 AI 节点运行的应用,可实现高达 400 千兆比特/秒 (Gbps) 的以太网速率。

AMD Pensando Pollara 400 AI NIC 采用经过验证的第三代全硬件可编程 Pensando P4 引擎,具备卓越的性能和可编程灵活性,可充分满足未来需求,同时帮助超大规模数据中心、云服务提供商和企业充分发挥现有基础设施的价值。

大规模提升 AI 性能

最高可达
8% AI 作业完成速度提升 1

凭借高达 400 Gbps 的 GPU 间通信速率,AMD Pensando Pollara 400 AI NIC 可将 AI 任务完成速度提升多达 8%,帮助加快生成式 AI 工作负载的 AI 训练和投产。

最高可达
50% 集群正常运行时间提升 2

凭借增强的可靠性、可用性和可维护性 (RAS) 功能,可帮助将集群的有效正常运行时间最高提升约 50%。AMD Pensando Pollara 400 AI NIC 可加速拥塞场景下的网络收敛与丢包恢复,助力大规模 AI 工作负载持续运行、减少业务中断。

最高可达
58% 降低资本支出 3

AMD Pensando Pollara 400 AI NIC 专为满足当下和未来的 AI 工作负载需求而设计,支持开放式多平面以太网架构,可将网络资本支出降低多达 58%,同时可随 AI 基础设施的发展而灵活扩展。

提升运营效率

AMD Pensando Pollara 400 AI NIC 采用完全可编程硬件和软件设计,可充分缩短停机时间、验证集群健康状况、提供高级遥测能力,并加快 AI 基础设施的投产进程。

横向扩展面向未来的 AI 基础设施

随着 AI 集群的扩展,系统性能愈发依赖网络运行表现,网络拥塞、尾延迟及故障传播决定了系统的效率、成本与可靠性。

阅读本产品指南,了解 AMD Pensando Pollara 400 AI NIC 如何在横向扩展 AI 基础设施的过程中,实现可预测扩展、资源利用率提升并保持稳定性能。

AMD Pensando Pollara 400 AI NIC 备受关注

可编程 NIC 的关键作用:横向扩展数据中心网络,为 AI 工作负载赋能助力

如今,各企业正在积极建设用于托管 AI 工作负载的基础设施。要实现高效横向扩展,网络至关重要,而网络正逐渐倾向于采用以太网技术。然而,高效的网络并非只关乎交换机,在网络接口卡 (NIC) 中引入高级功能也是至关重要的设计策略。Enterprise Strategy Group by TechTarget 企业网络首席分析师 Jim Frey 分享了精彩观点,阐释他为何认为 AMD 可编程 NIC 是通向成功的出色路径。

符合超以太网联盟 (UEC) 规范的创新

AMD Pensando Pollara 400 AI NIC 将 UEC 传输功能集成到以太网中,通过 UEC RDMA 为 AI 工作负载提供更稳定一致的性能表现。凭借完全可编程的 P4 引擎,AI NIC 能够通过软件实现 UEC 功能的持续采用和优化,让网络能够随着新兴标准迭代更新演进,无需更换硬件。

提升网络性能,助力有效应对 AI 工作负载

卓越的以太网 AI 集合通信性能

通过在标准以太网上运行 RoCEv2,搭载 ROCm 软件的 AMD Pensando Pollara 400 AI NIC 的 AI 集合通信性能可提升多达 10%。4

AMD Pensando Pollara 400 AI NIC

参考基准

RoCEv2 性能提升多达 10%
+10%

AMD AI NIC 上符合 UEC 规范的 RDMA:AI 集合通信性能大幅提升

相较于 RoCEv2,AMD Pensando Pollara 400 AI NIC 凭借符合 UEC 规范的 RDMA,可将集合通信性能提升多达 25%。5

AMD Pensando Pollara 400 AI NIC UEC-RDMA - 符合 UEC 规范的 RDMA

AMD Pensando Pollara 400 AI NIC UEC-RDMA - RoCEv2

UEC RDMA 加持,性能提升多达 25%
提升 25%

特性

智能网络监控与负载均衡

智能数据包喷射

借助智能数据包喷射技术,团队能够全方位优化网络性能,包括增强负载均衡能力、提高整体效率以及提升可扩展性。通过优化网络性能,可显著缩短 GPU 与 GPU 之间的通信时间,从而加快任务完成速度并提高运营效率。

无序数据包处理和有序消息传递

即使采用多路径和数据包喷射技术,仍能确保按正确顺序传递消息。此外,通过高级无序消息传递功能,可高效处理未按顺序到达的数据包,让这些数据包无需缓冲即可直接顺利存入 GPU 显存。

选择性重传

通过选择性确认 (SACK) 重传技术,可确保仅重新传输丢弃或损坏的数据包,从而显著提升网络性能。SACK 能够高效检测并重新发送丢失或损坏的数据包,优化带宽利用率,降低数据包丢失恢复期间的延迟,同时充分减少冗余数据传输,从而实现卓越效率。

路径感知拥塞控制

利用实时遥测和网络感知算法,团队能够专注于处理工作负载,而无需在网络监控上投入过多精力。借助路径感知拥塞控制功能,可显著简化网络性能管理,使团队能够快速检测和解决关键问题,同时减轻多对一流量突发 (incast) 场景所带来的影响。

快速故障检测

借助快速故障检测技术,团队能够在毫秒内精准找到问题所在,实现近乎即时的故障转移和恢复,显著减少 GPU 停机时间。提供近乎实时的延迟指标、拥塞及丢弃统计数据,提升网络可观测性。

AMD Pensando Pollara 400 AI NIC 规格

最大带宽 外形尺寸 以太网接口 以太网速度 以太网配置 管理
最高可达 400 Gbps 半高、半长 PCIe® Gen5.0x16;OCP® 3.0 25/50/100/200/400 Gbps

支持多达 4 个端口
- 1 x 400G
- 2 x 200G
- 4 x 100G
- 4 x 50G
- 4 x 25G

MCTP over SMBus

合作伙伴生态系统解决方案

AMD 与卓越的原始设备制造商 (OEM) 和原始设计制造商 (ODM) 携手合作,推出一系列基于 AMD 网络技术的解决方案,打造强大的生态系统。探索我们与合作伙伴携手推出的多样化解决方案如何助您加快创新速度并提升性能。

AMD Pensando Pollara 400 AI NIC 就绪型服务器平台

资源

面向开发人员

寻找 DPDK 和其他可下载资源。

驱动程序和支持

下载最新版本驱动程序;登录以获取 AMD 及其合作伙伴的支持。

技术文件和更多内容

下载新版白皮书、解决方案简介、设计和用户指南。

解锁 AI 网络未来

了解 AMD Pensando Pollara 400 AI NIC 如何重塑横向扩展 AI 基础设施。

探索专为现代高性能数据中心设计的全套 AMD 网络解决方案。

附注
  1. PEN-020:测试由 AMD 性能实验室于 2025 年 9 月 15 日进行,测试对象为 AMD Pensando Pollara AI NIC,运行 Llama 3.1-405B,全局批大小 (GBS) 设为 64,序列长度 8K,测试系统由 8 节点 SMC-300X 服务器组成,用于 GPU 间通信,使用 2 个 AMD Pensando Pollara AI NIC,双路 AMD EPYC(霄龙)9454 48 核处理器,8 个 AMD Instinct MI300X GPU,Ubuntu 22.04.5 LTS,内核版本为 5.15.0-139-generic,ROCm 6.4.1.0-83-69b59e5
    以下操作属于网关功能的一部分
    配置:Num layers=4,Data Type=BF16,DCN - TP=1,PP=1,SP=1,DP=1,FSDP=-1,ICI - TP=1,PP=1,SP=1,DP=1,FSDP=8。
    AINIC 容器:jax-private:rocm6.4.0-jax0.5.0-py3.10.12-tedev2.1-20250801_training。结果可能会因系统配置和软件设置等因素而有所不同。
  2. PEN-019:测试由 AMD 性能实验室于2025 年 9 月 15 日完成,测试对象为 AMD Pensando Pollara AI NIC,测试系统由 SMC-300X 服务器组成,用于 GPU 间通信:2 个 AMD Pensando Pollara AI NIC,双路 AMD EPYC(霄龙)9454 48 核处理器,8 个 AMD Instinct MI300X GPU,Ubuntu 22.04.5 LTS,内核版本为 5.15.0-139-generic,ROCm 6.4.1.0-83-69b59e5。 测试运行 Llama-3.1-8B,模型配置如下:SEQ_LEN=2048,TP=1,PP=1,CP=1,FP8=1,MBS=10,GBS = 5120。迭代次数 = 2,每个队列对 (QP) 的路径数量:128。结果可能会因系统配置和软件设置等因素而有所不同。
  3. PEN-018:截至 2025 年 7 月 6 日的 AMD 对比与定价:支持 128,000 个 GPU 的网络结构成本。对比了搭载多平面结构和数据包喷射功能的 Pollara NIC(采用基于 Tomahawk 5 的 800G 多平面设计)与基于全调度、大缓存 (Jericho3/Ramon3) 800G 交换平台的通用型胖树结构。假设通用系统 NIC 成本大致相当。通过在多平面架构中采用更具成本效益的 Tomahawk 5 交换机,基于 Pollara 的设计预计最高可节省 58% 的网络交换成本。2025 年 4 月 23 日 AMD 对比与定价:搭载 Pensando Pollara NIC(具有专属的多平面结构和数据包喷射功能)的 Tomahawk 5 系统,对比通用的大缓存 800G 交换平台;假设通用系统 NIC 成本大致相当。通过部署支持多平面结构和数据包喷射功能的 Pollara,客户可以构建经济高效的多平面网络结构;相较于传统的胖树设计,该方案只需用较少的网络交换机便可为整个结构提供同等的网络带宽,同时大幅降低交换机平台成本以及与线缆和光模块相关的成本。
  4. PEN-015 - 测试由 AMD 性能实验室于 2025 年 5 月 13 日完成,测试对象为 Pollara AI NIC。测试系统由 8 个节点组成,每个节点配备 8 个 MI300X AMD GPU(共 64 个 GPU);基于 Broadcom Tomahawk-5 的叶片交换机 (64x800G),型号 Dell z9864f-r0;RAIL 拓扑结构;AMD AI NIC Pollara – 64 个 NIC,ROCm 版本 6.3.2.0-66-cbc70b5;8 个节点均配置双路 AMD EPYC(霄龙)9454 48 核处理器;操作系统为 Ubuntu® 22.04.5 LTS;内核版本为 5.15.0-139-generic。
    所有应用软件库(RCCL 和 ROCm)和测试环境都完全相同,针对特定硬件的底层驱动程序除外。
    AMD Pensando Pollara NIC
    所用驱动程序为内部版本,计划于未来数月内向公众正式发布。
    对以下集合通信操作进行了测量
    Allreduce、Allroall、Alltoallv、Broadcast、Reduce、Scatter、Allgather
  5. PEN-016 - AMD 性能实验室于 [2025 年 4 月 28 日] 在生产系统上对 [AMD Pensando Pollara 400 AI NIC] 进行了测试,该生产系统包括:分别配备 8 个 AMD MI300X GPU 的两个节点(16 个 GPU):MICAS Networks 基于 Broadcom Tomahawk-4 的叶片交换机 (64x400G);CLOS 拓扑结构;AMD Pensando Pollara AI NIC - 16 个 NIC;2 个节点中的 CPU 型号 - 双路第五代 Intel® Xeon® 8568 - 48 核 CPU,PCIe® Gen-5 BIOS 版本 1.3.6;缓解措施 - 关闭(默认设置)
    系统配置文件设置 - 性能(默认设置):SMT - 已启用(默认状态);操作系统为 Ubuntu 22.04.5 LTS,内核版本为 5.15.0-139-generic。
    测量了以下操作:全规约 (All-Reduce)
    相比 RoCEv2,在使用 4QP 和符合 UEC 规范的 RDMA 的情况下,不同消息大小样本(512MB、1GB、2GB、4GB、8GB、16GB)的全规约操作的平均值为 25%。结果基于至少 8 次测试运行的平均值。