中科曙光超节点 scaleX640:2025 年 11 月,中科曙光正式发布全球首个单机柜级 640 卡超节点 scaleX640。中科曙光通过系统工程创新,实现算、存、网、电、冷的一体化紧耦合系统设计,采用超高速正交架构、超高密度刀片、浸没相变液冷、高压直流供电等创新技术,实现了软硬件协同的全局优化。
生态共赢打开长期发展前景。中科曙光于今年 9 月联合 20 余家产业链企业,共同发布“AI 计算开放架构”,并开放多项关键技术能力,旨在降低 AI 集群研发门槛,避免重复投入,推动产业从“单点突围”走向“生态共进”。scaleX640 超节点采用 AI 计算开放架构,在硬件层面支持多品牌加速卡,软件层面兼容主流计算生态。scaleX640 支持 MoE 万亿参数大模型训练、高通量推理、科学智能(AI4S)等前沿场景。
昇腾 384 超节点:昇腾超节点通过高速总线连接多颗 NPU,突破互联瓶颈,使超节点像一台计算机一样工作。其跨节点通信带宽较传统架构提升 15 倍,通信时延从 2μs 降至 0.2μs、下降 10 倍,最大可实现 384颗NPU 点到点超大带宽互
超节点大幅提升训练和推理的效率。经过实际测试,在昇腾超节点集群上,LLaMA3 等千亿稠密模型训练性能可达传统集群的 2.5 倍以上。在通信占比更高的 Qwen、DeepSeek 等多模态、MoE 模型上,可以达到 3 倍以上的提升。
在训练端,上海人工智能实验室 XTuner 团队联合昇腾技术团队在超节点上进行深度优化,充分利用昇腾 384 超节点硬件特性,实现了更高 MFU。
在推理端,在中国科学技术大学鲲鹏昇腾科教创新卓越中心的算力支持下,张燕咏团队成功研发基于专家选择分布预测的专家负载均衡和 all2all 通信均衡框架,以解决 MoE 稀疏大模型推理时的专家负载不均及计算通信开销大的问题。该框架
通过分析特征预测 token 专家选择路径偏好、复制高频专家与替换非重要专家实现负载平衡、提前部署专家并结合昇腾 384 超节点高速总线互联技术降低通信消耗这三步优化,在多尺寸多结构 MoE 模型中,推理时间、all2all 时间、MoE 层时间及负载不均分数较主流方案提升超 30%,多卡复杂场景中前三项指标提升30%、推理时间提升 20%,为昇腾技术优化 MoE 稀疏大模型推理性能提供了借鉴。
上海人工智能实验室 XTuner 团队联合昇腾技术团队,实现了更高 MFU
模型更合理分配资源:从专家选择的规律入手,通过分析相似 token 在 MoE 层选择专家的特征并归类,成功预测出token的专家选择路径偏好。
解决专家负载不均衡问题:团队依据token对专家选择偏好的预测结果,精准判断出专家动态访问的频率和重要性,通过复制高频专家、替换非重要专家的方式实现了负载平衡。
降低分布式计算的通信时延:将专家提前部署到对应的节点上,并联合需要紧密协作的专家放在同一计算单元,让数据与所需专家在物理位置上更接近。
结合昇腾384超节点采用的速总线互联技术。