博通推出了一款全新的 51.2T 交换芯片,但略有不同。新款博通 Tomahawk Ultra 并非追求通用网络的最大吞吐量,而是专注于小数据包和低延迟,旨在取代 InfiniBand 和 NVLink 等支持 Scale Up 以太网 (SUE) 的技术。
Broadcom 推出 Tomahawk Ultra,用于扩展以太网
幻灯片中列出了博通以太网面临的一些挑战。其理念是,以太网的设计初衷是处理从低速局域网到互联网的各种业务,因此它并非优化的高性能计算 (HPC) 或人工智能 (AI) 后端。
Broadcom Tomahawk Ultra 是一种新型交换机硅片,专为扩展高性能计算和 AI 节点集群而设计。
延迟为 250 纳秒,远低于高吞吐量交换机。另一个重要方面是,51.2Tbps 的吞吐量基于 64B 数据包大小。如今,以太网交换机上的大多数流量都涉及更大的数据包大小。因此,针对一般数据中心市场,交换机吞吐量优化的设计重点是更大的数据包大小。而 Tomahawk Ultra 的设计目标是在 64B 数据包大小下,使 51.2T 交换机达到饱和状态,同时保持较低的延迟。
Broadcom 还告诉我们,他们必须做一些工作来支持不同的 HPC 拓扑。
其背后的想法是为了帮助扩展以太网(SUE)。XPU 设计人员可以优化从 XPU 中获取数据包的过程,然后让 Tomahawk Ultra 快速传递消息,从而将整体延迟保持在非常低的水平。
Broadcom 还添加了网络内集合 (INC),我们已经看到 Mellanox/NVIDIA 员工在其交换机中使用此功能,以最大限度地减少节点的流量并加快作业完成速度。
博通正在做的一项工作是优化以太网报头,从 46B 缩减至 10B,以降低整体报头与有效载荷的比率。博通表示,这仍然完全符合以太网标准。
另一个方面是使链路层无损,以便堆栈的更高层无需进行纠错。博通使用 FEC 在链路层查找错误并请求重试,而不是在堆栈的更高层进行处理。
另一个功能是基于信用的流量控制 (CBFC)。当接收方有空闲的缓冲区空间时,接收方会向发送方发送信用。这样,发送方就不会将数据包发送给缓冲区中没有空间存储传入数据包的接收方。
博通将其展示为 NVIDIA NVLink 的替代品,具有更大的扩展域并且建立在以太网上。
SUE 还有另一个版本,称为 SUE-Lite,可以进行进一步优化。
Broadcom Tomahawk Ultra 与 Tomahawk 5 引脚兼容,现已与 Tomahawk 6 一起发售。
Tomahawk 6 是一款 102.4T 高吞吐量交换机。Tomahawk Ultra 则更侧重于扩展 HPC 和 AI 用例。
最后的话
在这方面,博通不仅瞄准了 NVIDIA NVLink 和 Quantum InfiniBand,还瞄准了 UALink。博通的一大亮点是,UALink 现已上市,而 NVLink 是专有技术,UALink 交换机还需要一段时间才能面世。
发表回复