1、 Scale-Up
(1)NVSwitch:NVIDIA GPU Scale-Up 专用高速交换芯片的多代演进
NVSwitch 是 NVIDIA 专为 AI 服务器 Scale-Up 场景设计的 GPU-to-GPU 高速交换芯片,经历Pascal→Volta→Ampere→Hopper→Blackwell→Rubin 的六代演进,目前仍是业界带宽最高、部署最成熟的私有方案。
(2)博通:面向 AI 的开放以太网 Scale-Up 互连规范与芯片方案
博通凭九成市占率称霸云端数据中心交换器市场,推出基于以太网络的 SUE 架构,主打开放相容与低延迟性能,力守 AI 时代交换器主导权。51.2Tbps 的 Tomahawk Ultra与 102.4 Tbps 的 Tomahawk 6 共同构成了统一以太网架构的基础:支持面向 AI 的纵向扩展以太网,以及面向 HPC 和分布式工作负载的横向扩展以太网。
SUE 并非具体芯片,而是一套开放接口规范,涵盖从加速器直连交换机的协议、光模块到控制栈。博通在 2025 年 OCP 峰会上宣布免费开放 SUE 规范,希望行业共同定义“开放的 Scale-Up 互连”。例如,SUE 规定如何使用 200G/400G 直连铜缆连接 GPU 和Tomahawk6,以及拥塞控制、流量管理机制,使以太网在小范围内达到类似 NVLink 的效果。这与 NVIDIA 的专有 NVLink 形成对比,博通试图把 Scale-Up 互连标准化为业界共有,从而打破封闭生态。博通押注“AI 网络终将回归以太网”这一逻辑。
他们通过Tomahawk6 把交换芯片带宽提升到 NVSwitch 级别,通过 Jericho3-AI 提升以太网在 AllReduce 等操作上的效率,通过 SUE 建立开放互连规范。这代表了 AI 基础设施领域的另一条技术路线:更加开放、供应商多元化且强调标准化互通。
Tomahawk Ultra 是以太网第一次以专用级低延迟和千级 XPU 纵向扩展能力改写AI fabric 游戏规则。性能对比上,Tomahawk Ultra 在部分指标上已与专用协议接近或超越。其单跳可连接的 XPU 数量为 NVLink 交换机的 3 倍以上,支持至少 1024 个加速器的纵向扩展系统,而英伟达 NVLink 技术虽宣称支持 576 个加速器,但实际部署中尚未突破 72 个 GPU 插槽规模。
以太网交换 ASIC—Tomahawk 6 是业界首颗 102.4 Tbps 带宽的交换芯片,博通将其定位为同时支持 Scale-Out 和 Scale-Up 的统一方案。Tomahawk6 采用 SUE 框架,服务器/加速卡厂商可以按 SUE 规范设计接口,与 Tomahawk 交换机高效直连,从而实现类似 NVLink 的紧耦合通信,但其仍然沿用通用以太网 PHY。
(3)Astera Lab:基于 PCIe/UALink 双模的 Scorpio X-Series Scale-Up 交换平台
ALAB 作为 Switch 端首批入局者,公司产品链完整,是唯一一家同时掌握交换芯片(Scorpio X-Series)+延长线(Aries SCM/AEC)+软件管理平台(COSMOS Suite)的厂家。ALAB 从 PCIe Retimer 起步,到 Scorpio X-Series 芯片放量,再到 2027 年全面拥抱 UALink 1.0(由 AMD、AWS 等推动),形成机柜内 GPU-to-GPU 内存语义交换的完整解决方案。
UALink 作为一种可扩展的 AI Fabric,可部署用于 AI 训练和 AI 推理解决方案以支持广泛的 AI 模型。UALink 是由 AMD、AWS、博通、思科、谷歌等公司组成的超级加速器链接促进会发布的开放行业互连标准。对于 AI 训练,UALink 将使可扩展域增加到数百 GPU,以满足未来 LLM 和 Transformer 模型的需求。
UALink 的更高带宽和更低延迟将使大型基础模型的 GPU 训练性能继续扩展,但它也使较小的模型能够更快地训练,从而更频繁地训练。UALink 实现的高达 40%的功耗改进,提供了将可用数据中心功率最大化用于 GPU 计算并减少训练新模型所需能量的机会。UALink 200G 1.0 规范支持每通道最高 200GT/s 的数据传输速率,能在 AI 计算舱内实现最多 1024 个加速器的每通道 200G 扩展连接,延迟低于 1 微秒,具有低功耗、以太网兼容性好、安全与管理性强等特点,可打破英伟达 NVLink 技术垄断,为下一代 AI 集群性能提供开放标准互连。
随着部署的 AI 模型种类不断增加,AI 推理架构需要不断发展,以提高 AI 服务器的总体拥有成本(TCO),帮助提供商最大化其投资回报率(ROI)。UALink 带来的 TCO效率改进将直接惠及 LLM 和推荐系统部署的 ROI。
ALab 最早布局 PCIe 领域,定义了 Redriver 和 Retimer 技术。当前,ALab 已研发5nm PCIe Gen6 交换机,正在研发 PCIe Gen7。ALAB 凭借 PCIe 协议优势切入 UALink生态,获得 AWS 和 AMD 支持。其双模交换机芯片(PCIe Gen7 + UALink 128G)支持Trn 4 机群互联。实现 PCIe Gen7 与 UALink 128G 等速匹配,未来向 UALink 200G 演进。其 Scorpio X 已通过 NVIDIA Blackwell 平台验证,双方共同定义 UALink 标准,ALAB 是唯一首批硬件伙伴。
ALAB 预计 UALink 和部分基于 PCIe 的 Scale-Up 部署将在 2026 年开始起量,而 UALink 将在 2027 年开始更大规模推广,管理层预计以 ScorpioX 系列为核心的 Scale-Up 业务将成为增长重点。目前的产品正在围绕 UALink 1.0 进行开发,涵盖加速器及其他设备间的互联 fabric。UALink 1.0 基于两个标准构建:上层协议采用 PCIe,物理层采用基于 200G 以太网的标准。
2、Scale-Out
(1)博通:三大交换芯片系列覆盖全面应用场景
博通是全球领先的商用交换芯片制造商,拥有数十年的技术积累和丰富的产品线。其在交换芯片产品上布局完善,主打三大交换芯片系列:高端的 Tomahawk、中端的Trident 和低端的 Jericho,覆盖各种应用场景。
博通目前最具代表性的交换芯片是 51.2Tbps 的 Tomahawk 5,最高支持 800Gbps的速率。针对超大规模企业和云构建者商用交换机和路由器芯片市场,2022 年 8 月博通发布了业内首款商用 51.2Tbps 容量的交换芯片 Tomahawk 5,采用 5nm 制程,由台积电代工生产。该芯片支持多种配置的交换机,包括 64 端口 800Gbps、128 端口 400Gbps 和256 端口 200Gbps。应用场景包括数据中心、云计算、AI 和 ML 集群组网,主要面向于小规模 AI 集群数据调度。
从 2010 年 Trident 的 640Gbps 增长到 2022 年 Tomahawk 5 的51.2Tbps,Tomahawk 实现了 80 倍带宽提升,并实现了超过 90%能耗的降低。每一代的带宽翻倍减少了所需交换机数量的同时,还降低了端口成本。如 6 个 25.6Tbps 的Tomahawk 4 芯片互联组成的 Leaf/Spine 交换机网络,才能提供与 Tomahawk 5 芯片本身相同的端口数。同时其数据交换性能是 Tomahawk 4 芯片的两倍,能充分满足数据中心不断增长的网络需求。
(2)Marvell:面向高端数据中心与 AI 驱动网络服务
Marvell 在交换芯片市场中是高端数据中心与 AI 驱动网络的核心供应商,速率配置灵活,最高可达 800Gbps。Marvell 当前的技术能力主要来自于在 2021 年对 Innovium的收购。完成收购后,Marvell 的交换芯片产品面向了完整的高中低市场。其中公司原本的 Prestera 系列定位中低端,主要用于企业网络和边缘市场,而 Innovium 的 Teralynx 系列产品定位中高端,主要面向数据中心和 AI 场景。
Marvell 目前已实现 12.8T 交换芯片Teralynx 7 的大规模量产,且数据中心交换的研发增加了 2.5 倍。2023 年 3 月 Marvell 推出了 51.2T 性能的 Teralynx 10 交换芯片。该可编程 5nm 交换机芯片可提供 64 端口800Gbps 或者 512 端口 100Gbps,且延迟低至 500ns,运行功耗低至 1W/100G 端口,可适用于下一代数据中心网络中脊叶互联,以及 AI 和高性能计算(HPC)。
更多行业研究分析请参考思瀚产业研究院官网,同时思瀚产业研究院亦提供行研报告、可研报告(立项审批备案、银行贷款、投资决策、集团上会)、产业规划、园区规划、商业计划书(股权融资、招商合资、内部决策)、专项调研、建筑设计、境外投资报告等相关咨询服务方案。