AI/ML 后端网络市场规模快速增长,拉动交换机和网卡需求。后端网络可采用运用 RDMA 技术的 RoCE 以太网和 IB 网络组网,据 650group 数据,2021 年之前,RDMA 的市场规模每年在 4 亿至 7 亿美元之间,主要受 HPC 应用的驱动。2023 年,由于 AI/ML 部署的激增,市场对 RDMA 的需求激增至 60 亿美元以上,预计到 2028年将突破 220 亿美元,分产品来看,主要以交换机设备需求为主,分技术来看,以太网网络占比持续提升。
从各业务网络速率需求上看,计算网络需求较高。每个 GPU 对应一个高速率网络端口如 400G、800G、1.6T 等,以 SXM 8 卡 GPU 模组为例,则对应 8个网络端口;存储网络速率需求同样较高,但端口相对较少;管理/业务网络速率则相对较低。
从组网架构上看,智算 AI 集群组网需满足大带宽、无阻塞以及低时延等需求,要求数据中心交换机提供全端口线速转发的能力,并对交换机端口速率以及密度提出更高要求,交换机下联和上联带宽采用 1:1 无收敛设计,即如果下联有 32 个800Gbps 端口,则上联也有 32 个 800Gbps 端口。
主流网络架构包含 Fat-tree、Torus、Dragonfly 三种。其中,Fat-Tree 拓扑具有网络直径短,端到端通信跳数少,建网成本低的优点,适用于中小规模智算中心。当网络达到一定规模后,例如上万节点时,可采用三层架构或改用Dragonfly和Torus。Dragonfly 和 Torus 拓扑的建网成本更低,交换机端到端转发跳数明显减少,可提升网络整体吞吐和性能,适用于大规模、超大规模智算中心。
(1)Fat-Tree 是一种树形拓扑,网络带宽不收敛,支持对接入带宽的线速转发,并且在横向扩展时支持增加链路带宽。Fat-Tree 拓扑中所使用的网络设备均为端口能力相同的交换机,可有效降低网络建设成本。
(2)Torus 是一种环面拓扑,它将节点按照网格的方式排列,然后连接同行和同列的相邻节点,并连接同行和同列的最远端的 2 个节点,使得 Torus 拓扑中每行和每列都是一个环。Torus 拓扑通过从二维扩展到三维、或更高维的方式增加新的接入节点,可提高网络带宽,降低延迟。以谷歌 TPU OCS 网络为例,采用 4096 个 TPU v4进行 3D Torus 组网。
(3)Dragonfly 是一种分层拓扑,包括 Switch、Group 和 System 3 层,其中 Switch层包括一台交换机和与其相连的多个计算节点,交换机负责连接对应计算节点以及其他 Group 的交换机;Group 层包含多个 Switch,多个 Switch 间进行全连接;System层包含多个 Group,多个 Group 间也进行全连接。主要优势是网络转发路径小,组网成本较低,多用在超算领域。
在胖树组网架构下,以搭配 8 卡 SXM GPU 模组的 AI 服务器组网为例,每个服务器 1 号网口上连至 leaf 层 1 号交换机,2 号网卡连接至 leaf 层 2 号交换机,并以此类推,直至 8 号网口连接至 8 号交换机。每 8 台 Leaf 交换机和下联的 A I 服务器组成一个 group, 每 8 台 Leaf 交换机又与上面对应的 Spine 交换机组成一个 pod。若算力集群规模持续增长至 3 层组网,则以 Pod 为单位持续拓展,加入 Core 交换机进行组网,所有交换机之间均采用 Fullmesh 全连接,leaf 和 spine 层交换机上下行收敛比为 1:1 无收敛,spine 和 Core 层组网可能存在收敛比。
两层和三层无收敛网络架构可容纳 GPU 卡规模,取决于交换机端口数量和速率(即交换容量=端口数×端口速率×2),因此超大 AI 集群需要高端口密度和高速率端口的数据中心交换机。以 N 代表 GPU 卡规模,以 P 代表单台交换机端口数量,根据我们测算,则两层无收敛组网架构下最多支持