AI 模型加速迭代,从预训练转为多方面 Scaling,对 AI infra 要求持续提升。当前 AI 模型持续迭代,GPT-5、Gemini 3 pro、Deepseek V3.2 等大模型呈现出长序列输入输出、多模态输入/输出、长思维等特点,模型参数持续突破(从千亿级陆续走向万亿级),训练数据量持续扩张(单模型训练数据达 EB 级)。
从大语言到多模态,模型参数量提升至万亿级。随着基础大模型参数量从千亿迈向万亿,大模型预训练过程对底层智能算力的诉求进一步升级。头部基础大模型的训练算力需求已达到十万亿兆量级,且仍以每年 4.1 倍的速度快速增长,例如Qwen3-Max 模型总参数超过 1T,预训练使用 36T tokens;文心 5.0 原生全模态大模型参数量达 2.4T。模型预训练对千卡、万卡算力集群需求愈加迫切。
Scaling Law 泛化至全流程。Scaling Law 从预训练扩展到后训练和逻辑推理全流程,模型不光随着参数量提升而提高性能,还能基于强化学习、思维链等算法创新在后训练和推理阶段更多的算力投入,可以进一步大幅提升大模型的深度思考能力。据 OpenAI 介绍,在开发 OpenAI o3 时在训练计算和推理时间方面都增加了一个数量级,发现了明显的性能提升,验证了模型的性能会随着思考的次数的增长而不断提高,并首次将图片整合到思维链中,算力需求持续提升。
什么是超节点?超节点集群(SuperPod),最早由英伟达提出,随着 AI 模型迭代对算力需求不断增长,集群从千卡扩散至万卡、百万卡等,而扩张方式主要为 ScaleUp(纵向扩展)和 Scale Out(横向扩展)两个维度。我们认为,集群的最小单元则是算力芯片处于同一个 HBD(High Bandwidth Domain,高带宽域)的超节点计算柜Rack,其中 ICT 设备包括 Computer tray(计算节点)、Switch tray(交换节点)、TOR交换机等,同时需搭配供电、制冷设备等其他设备以确保超节点机柜的运行。
过去算力集群扩张主要采用 Scale-Out 架构,通过以太网连接大量 AI 服务器,以构建千卡、万卡集群,然而随着以 Deepseek 为代表的 MOE 架构,成为可扩展模型的核心架构方向,而大模型分布式训练,使得跨服务器的带宽与时延成为根本瓶颈,制约整体训练效率。而 Scale Up 域互联则是协同多个 GPU、CPU 的算力以及域内互联的内存池,使集群形成逻辑上的“一个超级 GPU”工作,解决“通信墙”问题。
基础设施逐步走向超节点时代:
1、训练侧:随着模型参数规模持续增长,对基础设施集群能力要求日益严苛,单卡 GPU 远不足以承载模型,高带宽域+大内存需求逐步提升,AI 基础设施单卡逐步迈入超节点时代:
(1)单卡阶段(CV 模型主导):在计算机视觉模型为主的时期,模型可以完全放入单个加速卡中进行训练。此时的并行策略主要是数据并行,单卡的计算能力是主要瓶颈。
(2)八卡模组阶段(小参数 NLP 模型主导):随着 NLP 模型的出现,单卡显存不足以容纳整个模型,训练扩展到单机八卡。此时,数据并行和模型并行结合使用,节点内部的通信带宽成为瓶颈。
(3)超节点服务器集群阶段(大模型主导):当模型参数达到千亿乃至万亿级别,单机已无法满足需求,必须使用大规模服务器集群进行训练,以 GPT4 1.8T 为例,模型部署需要超 10TB 显存占用,远超 GPU 单卡甚至单服务器容量上限。由此业界通过引入序列并行、专家并行等更复杂的并行策略,进行分布式训练,训练集群的总规模(卡数)是数据并行(DP)、张量并行(TP)、流水并行(PP)和序列并行(CP)等多种并行维度的乘积。
2、推理侧:随着模型向稀疏化架构演进,总参数量与专家数量不断增长,推理模式也从单卡单机走向多机大专家并行,随着用户数量持续增长,需同时兼顾多并发需求。语言模型走向多模态/多任务理解和生成,对算力及访存需求变大,此外,模型输入序列长度不断增长,对 KV Cache 缓存提出新挑战。