AI 算力：需求持续高景气，国产算力芯片性能+生态+产能全面突破 - 产业科技 - 行业新闻

AI 算力：需求持续高景气，国产算力芯片性能+生态+产能全面突破
思瀚产业研究院 2026-03-17

作为国内 AI 算力需求的最大来源，2025 年头部互联网厂商资本开支仍保持高速增长，展望2026年，在训练及推理算力需求持续高景气的背景下，大厂的资本开支有望继续攀升。在渡过2021-2023年的下行周期后，受 AI 需求驱动，以 BAT（百度、阿里、腾讯）为代表的国内互联网大厂开始大量采购AI 芯片并进行数据中心建设，在 2024 年的资本开支出现显著增长，进入 25 年，以 BAT 为代表的互联网大厂总资本开支仍保持高速增长，25Q1 和 Q2 BAT 合计资本开支分别同比增长 100%、168%，三季度合计资本开支同比增长 32%，主要是受 AI 芯片采购受限导致大厂被迫放缓资本开支计划实现节奏及上年同期高基数影响。

目前模型军备竞赛仍在持续，大厂仍将不断投入大模型训练，同时近一年底层大模型的token 调用量大幅提升，推理算力需求高景气持续，预计 2026 年随着国产芯片及服务器产能快速爬坡，国内互联网大厂的资本开支将继续攀升，其中，阿里管理层在最新财报业绩交流会上表示，目前服务器上架速度远跟不上客户订单的增长速度，未来可能上调此前给出的三年 3800 亿的资本开支投入计划。

近年来美国对高性能 AI 芯片的出口管制不断收紧，2025 年 4 月特朗普政府宣布“对等关税”政策，中美贸易摩擦进一步加剧，同时在 4 月美国通知英伟达，无限期禁止对中国等地出口H20 芯片。虽然随后中美贸易摩擦有所缓和，并在 7 月美国放开 H20 的出口管制，近期又批准了英伟达H200 的对华出口，但在中美科技博弈的大背景下，实现 AI 芯片的自主可控重要性愈发凸显，目前中国已要求政府资助的数据中心和部分科技公司限制采购英伟达芯片，并将针对 H200 设置采购限制。

根据 Trendforce 预测，2026 年国产AI芯片（包括国内互联网大厂自研的 ASIC 芯片和本土芯片供应商的产品）在国内高端AI 芯片市场的供应份额将达到 70%，而英伟达 H200、AMD MI325 等同级海外产品的份额仅为 30%。

以华为昇腾、寒武纪、海光信息、昆仑芯为代表的国产 AI 芯片厂商正持续突破单卡性能上限，其中华为旗舰产品已可对标英伟达 H100。华为于2025Q1 推出昇腾 910C 芯片，FP16 稠密算力达到约800TFLOPS，接近 H100 算力的 80%，同时华为公布了昇腾系列芯片的三年迭代路线图，预计26Q1 和26Q4 将陆续推出昇腾 950PR 和昇腾 950DT，算力将达到 1PFLOPS（FP8）/2PFLOPS（FP4），并预计27Q4 和28Q4将分别推出昇腾 960 和昇腾 970。

此外，寒武纪、海光等厂商也在快速升级 AI 芯片产品，其中，寒武纪主力产品MLU590 已能对标英伟达 A100，预计下一代产品 MLU690 性能将实现翻倍提升；海光在深算二号基础上推出了深算二号 AI 版，正式切入 AI 场景，而新一代量产的深算三号 AI 性能实现进一步显；著25提年升第三代昆仑芯芯片 P800 上市，FP16 性能较昆仑芯 2 代提升了近 2 倍，同时百度披露了未来5 年的产品迭代路线图，预计 26 年初发布针对大规模推理场景的 M100，27 年初上市 M300，面向超大规模多模态模型的训练和推理需求。

2025 年 4 月华为发布 CloudMatrix 384 超节点，通过架构创新实现以量换质，直接与英伟达最新一代机架级解决方案展开竞争。CloudMatrix 384 超节点由 384 颗昇腾 910C 芯片组成，具体而言，CloudMatrix384包括 16 个机柜，其中有 12 个计算机柜，单机柜配置 32 颗昇腾 910C；有 4 个交换机柜，放置Scale-Up交换机。每个昇腾 910C 芯片通过 UB 交换机进行连接，实现节点间通信性能接近节点内水平，节点间带宽退化不足 3%，并且节点间延迟增加不到 1微秒。

相较于英伟达 GB200 NVL72，CloudMatrix 384 的AI 芯片数量是其 5 倍，足以弥补每颗芯片性能仅为 Blackwell 1/3 的不足，一套完整的CloudMatrix 384 超节点可提供300PFLOPS 的 FP16 稠密算力，接近 GB200 NVL72 的 2 倍。同时，根据华为在技术论文中披露的数据，在使用 CloudMatrix 384 部署 671B 参数的 DeepSeek R1 模型时，在 prefill 阶段，每个NPU的吞吐量达6688tokens/s，而在 decode 阶段，每个 NPU 的吞吐量也达到了 1943 tokens/s，对应的计算效率分别为4.45和1.29tokens/s/TFLOPS，均优于英伟达 H100 和 H800 的表现。

国内头部云厂商、传统服务器厂商以及 AI 芯片厂商纷纷布局超节点，基于自身基因选择差异化竞争策略，形成体系化算力输出。

其中，1）头部云厂商中阿里和百度已率先布局超节点，阿里磐久AI Infra2.0AL128超节点基于行业领先的散热技术在极致密度集成能力上实现突破，传统服务器机柜可容纳128 张加速卡，同时软硬协同优化能力突出，超节点与自研的 HPN 8.0 高性能网络、AI 平台PAI 等深度集成，通义千问模型基于此实现训练端到端加速比 3 倍以上提升；而百度采用“芯片+架构+应用”的闭环策略，超节点使用自研的昆仑芯芯片，实现单卡性能提升 95%、单实例推理性能提升 8 倍，目前已大规模应用于百度搜索、自动驾驶等核心业务；

2）传统服务器厂商具备工程优势，凭借多年硬件集成经验，在高密度部署、散热优化等工程难题上快速突破，中科曙光 scaleX640 为全球首个单机柜级 640 卡超节点，并采用“一拖二”高密架构设计，2 台 scaleX640 可组成 1280 卡的计算单元，支持十万卡集群部署；新华三H3CUniPodS80000实现单机柜 64 卡高密度部署且支持向 1024 卡扩展；中兴通讯自研超节点采用框柜一体设计，GPU间时延降至百纳秒级；

3）AI 芯片厂商以光互联等技术为突破口，比如沐曦自研高速光模块将机柜间时延压缩至微秒级，其 Shanghai Cube 超节点单机柜支持 128颗GPU 部署，凭借长距离集群扩展优势，成为DeepSeek等大模型团队的核心供应商。

国产 AI 芯片厂商目前主要通过兼容 CUDA 以及自研两种方式来构建生态，逐渐突破CUDA生态壁垒。

1）海光信息、摩尔线程等厂商采用兼容 CUDA 生态的方式，一方面，这类厂商在硬件层面上大多采用与英伟达类似的 GPGPU 架构，另一方面，这类厂商投入研发具备较高转换质量的编译器，用于CUDA代码转译，因此能够降低 CUDA 迁移难度并减少效率损失。短期来看，通过兼容 CUDA 构建生态的优势在于能够实现 CUDA 应用的低成本迁移，从而使开发者在不改变使用习惯的情况下逐渐过渡为使用国产芯片；

2）华为昇腾、寒武纪等厂商致力于构建自主生态，这类厂商会针对自身 AI 芯片的特性通过自研构建软件栈，以通过软硬件协同更好发挥芯片性能，同时自主可控程度也更高。但在短期内，自建生态难度较大，这类厂商也会通过编译器实现对 CUDA 的兼容。而由于这类厂商多采用 ASIC 架构，CUDA 迁移难度相对较高，在一定程度到会导致更大的性能损失。

国产芯片厂商正在加快解决国内晶圆代工等供应链问题。一方面，中芯国际正在积极推进产能提升，公司正在上海、深圳和北京扩建先进制程的产能，并且由于能够持续获得国外设备以及缺乏有效的制裁和执法措施，其产能仍在不断扩张，根据 Semianalysis 测算，到 2025 年底，保守估计中芯国际7nm及以下的先进制程节点总产能将达到 4.5 万片/月，2026 年将增至 6 万片/每月，2027 年将增至8 万片/月。

与此同时，华为正在自建晶圆厂，成立了自己的工具公司 SiCarrier，专门复制国外公司的工具，并与中芯国际在工艺技术方面开展合作，有望显著提升中国先进制程产能，而中芯国际也开始将部分生产外包给华为，将在一定程度上释放其产能分配给其他国产芯片厂；另一方面，部分国产芯片厂商开始研发Chiplet 技术，采用国产14nm+先进封装的技术方案来实现等效 7nm 的性能，目前沐曦等厂商已验证该路线的可行性。

预计未来中芯国际产能将显著提升

资料来源：Semianalysis，山西证券研究所

以华为昇腾、百度昆仑芯等为代表的一线芯片厂商开始快速放量，同、时天沐数曦智芯等二线芯片厂商也从产品打磨快速向规模化落地过渡。其中，1）根据 Semianalysis 数据，2025 年昇腾910 系列芯片出货量从 50.7 万片提升至 80.5 万片，其中昇腾 910C 成为出货主力，出货量达到65.3 万片；

2）根据IDC，24年昆仑芯出货量达 6.9 万片，25 年上半年百度成功点亮昆仑芯 P800 三万卡集群，并全面应用于百度内部；

3）根据 IDC 数据，24 年寒武纪芯片出货量达 2.6 万片，全年营收 11.74 亿元，而25 年前三季度营收就达到46.07 亿元，同比增长 2386.38%，25 年芯片出货量预计也将有数倍增长；

4）25 年海光信息深算三号已顺利实现量产出货并在主要商业场景落地，深算四号目前研发进展顺利，今年有望实现量产，并有望在头部互联网厂商等客户中获得青睐；

5）此外，沐曦、摩尔线程、天数智芯等二线芯片厂商累计产品出货量均已突破万卡，其中，截至 25 年 8 月末，沐曦 AI 芯片累计销量超过 2.5 万卡，已在多个国家人工智能公共算力平台、电信运营商智算平台和商业化智算中心实现规模化应用；截至 25 年 6 月30 日，天数智芯已向金融、医疗、交通等行业的 290 名客户交付 5.2 万片 AI 芯片；截至 25 年 9 月，燧原AI 加速卡及模组合计销量达9.72 万张。

更多行业研究分析请参考思瀚产业研究院官网，同时思瀚产业研究院亦提供行研报告、可研报告（立项审批备案、银行贷款、投资决策、集团上会）、产业规划、园区规划、商业计划书（股权融资、招商合资、内部决策）、专项调研、建筑设计、境外投资报告等相关咨询服务方案。

免责声明：
1.本站部分文章为转载，其目的在于传播更多信息，我们不对其准确性、完整性、及时性、有效性和适用性等任何的陈述和保证。本文仅代表作者本人观点，并不代表本网赞同其观点和对其真实性负责。
2.思瀚研究院一贯高度重视知识产权保护并遵守中国各项知识产权法律。如涉及文章内容、版权等问题，我们将及时沟通与处理。