早期的 scale up 主要是从单卡扩张为 8 卡 GPU 模组,再以 8 卡为一个单元对外扩展,搭配 8 卡 GPU 服务器模组的 AI 服务器,多采用 full mesh 直连拓扑,GPU 之间通过 PCIe 等互联协议直连或通过引入交换芯片方式提高 GPU 点对点的连接带宽。
早期的 scale up 主要是从单卡扩张为 8 卡 GPU 模组,再以 8 卡为一个单元对外扩展,搭配 8 卡 GPU 服务器模组的 AI 服务器,多采用 full mesh 直连拓扑,GPU 之间通过 PCIe 等互联协议直连或通过引入交换芯片方式提高 GPU 点对点的连接带宽。
1、 Scale up 组网架构包括:Fat-tree 胖树拓扑、Mesh 类拓扑、Torus拓扑等
(1)胖树架构超节点:以一层胖树架构的 scale up 网络的 GB200 NVL72 为例,机柜主要含 18 个 Computer tray,通过 9 个 NVlink Switch tray 将其中的 36 个 GraceCPU和72个 Blackwell GPU整合在一起,形成一个高带宽、低延迟的统一计算单元。
B200 与 NVswitch 的拓扑为 1 层胖树架构,每颗B200 GPU 支持 18 条 NVLink 5链路,每条链路双向带宽 100 GB/s,单颗总带宽达到 1800GB/s,72 颗 GPU 形成总带宽为 130TB/s 的全 mesh 网络,所有 GPU 之间实现了点对点的全互联,可以任意访问其他 GPU 的内存空间。通过 NVLink 组成全互联无阻塞架构,减轻因通信延迟导致的计算单元空转造成的算力浪费。通过引入 scale up 交换机可使 GPU 的互联带宽具有带宽池化能力,任意流量模式都可以高效使用 GPU 互联带宽。
若需要进一步扩张超节点 scale up 规模,可采用两层 Clos 拓扑实现更多算力卡互联。以 2 层 Clos 拓扑的 GB200 NVL576 为例,整个网络分为框与系统两个层级,单个框包含 36 个 B200 和 L1 层的 NVSwitch,整个组网包含 16 个框,框间互联由L2 层 NVSwitch 负责。
此外,由 ODCC 牵头,联合中国信通院、腾讯等发起的国产超节点 ETH-X 项目,采用 RoCE 方案,整机柜 GPU 互联带宽为 204.8Tbps。8 个 Switch Tray 支持409.6Tbps 的带宽,一半用于超节点柜内连接 GPU,另一半的带宽用于背靠背连接旁边机柜的超节点或者通过 L2 层 HB Switch 做更大的 HBD 域 Scale Up 扩展,该架构适配于物理承重与供电能力受限的机房环境。
(2)Mesh 类架构超节点:Fullmesh 组网下,节点需求随组网规模的增长而增长,为缓解规模扩展的问题,可采用提升拓扑维度 nD-Fullmesh 的方式,优先考虑短程直接互连路径。1D-FullMesh 为最简单的 FullMesh 类拓扑,其组网形态为全互联结构,即任意两个节点都有一条边互联。以 AMD MI350 scale up 网络为例,采用Infinity Fabric 互联,实现 8个节点的 MI350 的 Fullmesh 互联;华为通过灵衢协议UB-Mesh,柜内 64 个 NPU 采用 2Dfullmesh 互联,柜外可采用 3D、4DFullmesh 等更高维度拓扑实现机房级、楼层级、数据中心级互联。
(3)Torus 拓扑超节点:谷歌自研 TPU 芯片采用 2D/3DTorus 架构组网,立方体(Cube)内的 TPU 处理器通过铜互连(铜 ICI)连接,而不同立方体之间则通过光互连实现拼接。以 TPU v4 为例,其超级集群由 64 个 4×4×4 立方体构建块(对应 64 个机架)组成,可组合出最大 8×16×16(2048 颗芯片)的切片;TPU v5p 的最大切片尺寸扩展至 16×16×24(6144 颗芯片);TPU v7 则进一步支持 9216 颗芯片集群,该架构将故障域缩小至单个立方体,提升系统可靠性。
2、 Scale up 协议:从大厂私有逐步走向开源开放
传统 PCIe 互联带宽有限、演进缓慢,难以满足超节点中数据在 HBM 与 HBM、HBM 与寄存器、寄存器与寄存器之间的高频率传输需求,需要通过其他总线协议实现 XPU 间大带宽、低延时的内存语义通信,支持共享内存模型和统一地址空间。
(1)NVLink:NVLink 最初于 2016 年与英伟达 P100 GPU 一同发布,采用多条高速差分信号通道组成链路的方式进行点对点通信,允许同时进行多个数据传输会话,支持 GPU 之间直接进行内存访问,有效提高了数据传输效率,降低通信延迟,每个 NVLink 链路都提供双向数据传输能力,带宽远高于 PCIe,从 P100 的 160GB/s迭代至 B200 的 1.8TB/s,单卡带宽年复合增长率超 60%。
NVlink 早期相对封闭,厂商难以创新,于 2025 年 5 月,英伟达推出了 NVLinkFusion 开放互连技术方案,允许第三方厂商(例如高通、富士通等)的定制 CPU 或AI 加速器通过 NVLink 协议与英伟达 GPU/CPU(如 Grace、Blackwell 系列)实现高速互联,通过开放生态策略支持异构计算(如 ASIC 与 GPU 协同)。
(2)UAlink:UAlink 联盟最初成立于 2024 年 5 月,由 AMD、AWS、谷歌、英特尔、博通、Meta、微软等公司共同发起的一项开放式互连标准,后续阿里、苹果等厂商相继加入,成员均可参与开发和采用,从而促进生态系统的创新和丰富。UAlink 在物理层和链路层同样复用以太网技术,UALink 1.0 支持每通道最高 200GT/s 的数据传输速率,信令速率高达 212.5GT/s,可配置为单通道(x1)、双通道(x2)或四通道(x4)链路,通过 UALink 交换机(ULS)可连接最多 1024 个加速器或端点组成的整个 POD 上进行 Load / Store 操作。
(3)SUE:博通在 2025 年 4 月正式发布 SUE(Scale Up Ethernet)框架,旨在将以太网的优势引入 AI 系统内部 Scale Up 领域,以太网为基础构建传输层和数据链路层,直接在 XPU 间高效搬运内存事务。在部署模型上,SUE 支持单跳交换拓扑或直接互联的 Mesh 拓扑。每个 SUE 实例可灵活配置端口数(1/2/4 个),例如 800G实例可拆分为 1×800G、2×400G 或 4×200G 端口,以适应交换机端口密度和冗余需求。单个 XPU 可集成多个 SUE 实例(如 8 或 16 个),通过多实例叠加实现超高带宽(如 64 个 XPU 各配 12 个 800G SUE 时,任意 XPU 对间带宽达 9.6Tbps),以支持大规模数据集处理、深度神经网络训练及并行任务执行。
博通于 2025 年 7 月正式发布 Tomahawk Ultra,将传统以太网的报文从 46 字节精简到 10 字节,降低了控制开销,在 51.2 Tbps 全吞吐量下实现 250ns 低交换延迟,XPU 与 XPU 之间(含交换机传输时间)通信延时低于 400ns。SUE 要求端到端往返延迟(RTT)低于 2 微秒,单跳网络最多支持 1024 个 XPU。
(4)UB:华为于2019 年开始研究灵衢(UnifiedBus),随后发布灵衢 1.0 商用验证,于 2025 年 9 月发布并开放灵衢 2.0 技术规范。UB 协议栈由物理层、数据链路层、网络层、传输层、事务层、功能层以及 UMMU、UBFM(UB Fabric Manager)组成,对于内存交互,UB 支持 UBPU 中的计算单元直接发起同步和异步访存指令,减少控制命令交互,实现百 ns~us级低时延;对于集群大规模组网,UB 除了支持采用多级 UB Switch 扩展组网之外,还支持通过 UBoE 与以太 Switch 对接,实现融合组网,以及通过 OCS 组网,实现可变拓扑,助力集群规模扩张。
(5)HSL:2025 年 12 月,海光携手国产 AI 芯片、操作系统、存储与网络模块等厂商,发布海光系统总线互联协议(HSL)1.0 规范,涵盖完整总线协议栈、IP 参考设计及指令集,既实现各家 AI 芯片厂商与海光 CPU 的“紧耦合”,更帮助外设芯片、OEM、系统及应用厂商快速搭建高性能系统。
(6)OISA:中国移动携手 GPU 芯片、Switch 芯片、整机厂商、IP 等 48 家单位于 2024 年 6 月共同发布了 OISA(Omni-directional Intelligent Sensing ExpressArchitecture)Gen1.0 协议,旨在解决万亿参数大模型训练中的“通信墙”问题,并于 2025 年 8 月发布 OISA Gen2.0 协议。OISA 2.0 协议相较 1.1 版本,将支持的 AI芯片数量提升至 1024 张,带宽突破 TB/s 级别,AI 芯片互联时延缩短至数百纳秒,具备支持原生内存语义、创新 TLP 报文重构技术、支持智能在途感知、集合通信硬件加速等多个核心技术特征,助力国产超节点集群纵向扩展。
更多行业研究分析请参考思瀚产业研究院官网,同时思瀚产业研究院亦提供行研报告、可研报告(立项审批备案、银行贷款、投资决策、集团上会)、产业规划、园区规划、商业计划书(股权融资、招商合资、内部决策)、专项调研、建筑设计、境外投资报告等相关咨询服务方案。