(1)从“算力主权”到“算力平权”,Scaling Law 将带动 GPU 行业全面放量
随着人工智能技术持续突破,DeepSeek 的推出掀起了新一轮人工智能浪潮,在全球范围内实现了一轮 AI 普及,推动全球人工智能竞赛再次加速。一方面,DeepSeek 通过优化算法大幅降低了训练和推理成本,并且采取开源的方式推动行业从“算力主权”向“算力平权”的格局发展,使得中小企业和终端应用群体可以跨越算力门槛,在开源模型的基础上实现技术普惠,推动人工智能真正进入“全民时代”。虽然短期内 GPU 芯片可能因为训练效率的提升而受到影响,但在杰文斯悖论的推动下,大模型的快速迭代和 AI 应用的增长潜力将驱动 GPU 行业长期发展。
另一方面,模型和硬件工程上的多种创新技术推动算力需求结构发生根本性变革,除大模型预训练阶段的算力需求持续增长外,后训练和推理阶段成为了算力需求新的增长动能。算力需求从“重预训练”到“全流程平衡”的转变,正在重构人工智能产业的价值链,推动算力资源配置向更灵活、更繁荣的方向演进。
1)预训练 Scaling Law 是人工智能发展的基石,驱动 GPU 需求持续增长
大模型的发展遵循 Scaling Law 的经验公式,即模型参数量、数据量以及计算资源的增长能得到更好的模型智能。在通用基础大模型发展阶段,大模型向更大参数方向不断演化,预训练阶段的数据量呈指数级增长,GPU 作为算力硬件的核心在预训练市场经历了爆发增长。根据中国信通院《中国算力发展白皮书(2023)》,GPT-3 的模型参数约为 1,746 亿个,而 GPT-4 的模型参数约达到了约1.8 万亿个,训练算力需求上升了 68 倍。
伴随着互联网文本数据逐渐消耗殆尽,通用基础大模型边际投入和收益呈现边际递减趋势。然而目前预训练 Scaling Law 仍在延续,短期内更大的边际成本投入不会停止,并且 DeepSeek 的开源将会驱动其他头部大模型厂商加速探索通用基础大模型能力边界。
xAI 发布的 Grok-3 使用 20 万卡训练芯片集群带来模型性能提升亦证明了预训练 Scaling Law 将长期成为人工智能发展的基石。由于预训练是人工智能算法的起点,是整个 AI 基础设施的底座,模型智能的上限仍然取决于预训练阶段获得的通用基础大模型,科技巨头将持续在预训练阶段保持前沿探索。
此外,在文本大模型已相对繁荣的背景下,图像、视频、多模态大模型也逐渐进入发展快通道。多模态需要更大规模的数据量、更为复杂的模型结构,也将不断产生新的训练算力需求。因此,预训练 Scaling Law 已进阶为社会经济发展的底层动力,将驱动 GPU 市场长期保持稳定增长。
2)后训练 Scaling Law 是未来人工智能发展的重要载体,GPU 需求将迅速增长
基于通用基础大模型,全球人工智能算法已开启下一阶段——提升模型在垂直场景的智能。
OpenAI 于 2024 年 9 月首次公开提出将强化学习(RL)运用到大模型的后训练中,实现大模型以思维链(CoT)方式推理;DeepSeek 在预训练模型基础上,直接使用 GRPO 算法来进行大规模的强化学习并获得成功。后训练阶段的算法技术进步为后训练 Scaling Law 奠定基础,将吸引大量中小企业参与到人工智能浪潮中。
因为在技术进步之前,受限于高昂的预训练成本,很多中小企业难以维持大模型开发的资本投入,而在算法创新和开源普惠的趋势下,中小企业可以通过微调、蒸馏、强化学习等方式,在开源大模型的基础上二次开发后训练的新模型结构或垂直大模型来支撑业务场景,将以较低成本快速获取较高智能的模型能力。因此这类庞大的客户群体将成为未来 GPU 市场增长的重要驱动力。
3)推理阶段 Scaling Law 为终端智能带来可能,GPU 市场空间广阔
杰文斯悖论表明,效率的提高往往会导致总体消耗增加。通过推出高性能低成本且开源的轻量化模型,模型的调用门槛将大幅降低,大量 AI 终端应用有望加速落地。例如,蒸馏技术促使轻量化模型满足高性能、高效率的特性,推动端侧部署大规模落地,AI Agent、具身智能等场景得以快速迭代和蓬勃发展。AI 终端快速发展也将催生更多训练算力、推理算力需求,反哺整个人工智能产业进入良性循环的发展轨道。
推理阶段的 Test-time Scaling Law 下,大模型将成为人工智能时代的基础可用资源,稀缺性特征将逐步消失,商品化特征将逐步凸显。长期来看,整体人工智能算力市场空间广阔。整体而言,算法创新将推动人工智能技术使用门槛不断降低,模型重心逐步从预训练向后训练、推理阶段转移,更多中小企业能够便捷地获取先进技术、积极投身人工智能应用与转型,全新的 Scaling Law 将逐步开启,助力整体算力需求持续增长。
(2)国际政治环境推动和国内政策利好双重驱动人工智能芯片国产替代进程加速
1)地缘政治升级,美国政府从多方面对华展开高端技术封锁
人工智能和集成电路是中美科技博弈的重要领域,在地缘政治冲突大背景下,人工智能芯片作为自主可控的核心要件,国产替代空间及前景巨大。近年来,美国政府对中国半导体产业的限制持续加剧。
2022 年 10 月,美国商务部工业与安全局(BIS)发布了《出口管制条例》,从峰值性能、互连带宽等维度规定了未来可出口至中国等受关注国家或地区先进计算芯片技术参数的阈值和许可证要求。
2023 年 10 月,美国 BIS 出台了《先进计算芯片规定》(《AC/S IFR》)和《半导体生产物项管制新规》(《SME IFR》),进一步收紧了对先进计算集成电路、半导体制造设备以及支持超级计算应用和最终用途的物项向包括中国等国家的出口管制措施,升级了限制出口的芯片规格参数。
2024 年 12 月,美国 BIS 出台了《外国直接产品规则》(《FDPR》),新增了对高带宽显存 HBM 的管制措施。
2025年 1 月,美国 BIS 出台了《对先进计算集成电路实施额外的尽职调查措施》,强化了晶圆代工厂的尽调责任并进一步升级了对 HBM 规格参数的管制措施。
2025年 4 月,英伟达向美国 SEC 提交的 8-K 文件正式确认其 H20 系列 AI 芯片及所有达到同等内存带宽、互连带宽能力的电路产品出口至中国及 D:5 类军火禁运国家将需获得美国政府的许可。
2025 年 5 月,美国 BIS 发布《关于可能适用于先进计算芯片及其他用于训练 AI 模型商品的管制的政策声明》《关于通用禁令10(GP10)对中华人民共和国(PRC)先进计算芯片适用的指南》《关于防止先进计算芯片转移的行业指南》,从 AI 芯片的使用范围、供应链制裁等角度进一步加强了对先进计算芯片和相关技术的出口管制,将出口管制风险进一步延伸至产业链的各个参与方。
地缘政治倒逼相关国内客户使用国产 GPU 产品,在一定程度上帮助国产GPU 厂商与国内客户和供应商建立密切联系,进而快速实现技术和产品迭代升级。鉴于英伟达目前在中国人工智能芯片市场的份额高达 70%左右,出口管制政策将为中国人工智能芯片市场创造较大的供给缺口,下游智算中心的采购需求有望转移至国产厂商,与英伟达技术路径相同的国产 GPU 公司将迎来重大发展机遇。长期来看,通过软硬件技术提升,逐步实现高端智算芯片领域的国产替代已刻不容缓。
2)国家政策大力扶持人工智能和集成电路产业发展
我国对人工智能和集成电路产业高度重视,从政策和资金等层面大力支持人工智能和集成电路产业发展。2017 年,国务院公布《新一代人工智能发展规划》,提出抢抓人工智能发展的重大战略机遇,构筑我国人工智能发展的先发优势,加快建设创新型国家和世界科技强国。2022 年国务院出台《“十四五”数字经济发展规划》,提出要瞄准集成电路等战略性、前瞻性领域,完善集成电路等重点产业供应链体系。
2023 年工信部等六部门发布《算力基础设施高质量发展行动计划》,计划到 2025 年,算力规模超过 300EFLOPS,智能算力占比达到 35%。2024年,工信部等七部门发布《关于推动未来产业创新发展的实施意见》,提出加快突破 GPU 芯片、集群低时延互连网络、异构资源管理等技术,建设超大规模智算中心。
2025 年 2 月,国务院国资委召开中央企业“AI+”专项行动深化部署会,会议要求着力强化中央企业推进人工智能发展的要素支撑,在编制企业“十五五”规划中将发展人工智能作为重点,打造更多科技领军企业。近年以来,国家和各级地方政府不断通过产业政策、税收优惠政策、成立产业基金等方式支持人工智能和集成电路产业发展,有望带动行业技术水平和市场需求不断提升,加速国产替代进程。
3)智算中心资本投入持续增长
我国智算中心的建设主体主要为政府、运营商和科技企业。各地政府积极投入智算中心建设,例如,《北京市算力基础设施建设实施方案(2024—2027 年)》提出,到 2025 年,北京市智算供给规模达到 45EFLOPS;到 2027 年,具备 100%自主可控智算中心建设能力。
根据中国通信工业协会数据中心委员会发布的《中国智算中心产业发展白皮书》,截至 2024 年 8 月,中国智算中心项目超过 300 个,预计 2024 年中国智算中心市场投资规模达 1,014 亿元,并有望在 2028 年达到2,886 亿元。
全国各地智算中心建设热度持续,各地方也结合本地产业特色,加快人工智能应用创新,聚合人工智能产业生态。随着政府智算中心相继建设与落地,对于国产人工智能芯片及服务器的需求将持续增长。运营商和科技企业亦持续加码算力建设。
根据三大运营商 2025 年资本开支指引,三大运营商 2025 年资本开支计划规模合计达到 2,898 亿元,其中投资重心将继续向算力网络建设倾斜,例如中国联通预计 2025 年算力投资同比增长28%,中国移动预计 2025 年算力投资占比提升至 25%,中国电信预计 2025 年算力投资同比增长 22%。
以互联网为代表的科技企业自建智算中心,如阿里巴巴在2025 年 2 月宣布未来三年将投入超过 3,800 亿元,用于建设云和 AI 硬件基础设施,总额超过去十年总和;字节跳动预计 2025 年资本开支达 1,600 亿元,其中约 900 亿用于 AI 算力采购。而 DeepSeek 开源的新技术能大幅提高算力利用效率、在一定程度上降低对硬件的要求,将有利于促进运营商及互联网企业提高对国产GPU 的采购比例,加速 GPU 国产渗透率提升。
综上,在国际政治环境推动和国内政策利好的推动下,人工智能产业链国产渗透率将快速抬升,叠加人工智能算法的颠覆式革新对底层算力利用效率大幅提升,国产人工智能芯片厂商发展窗口期已至,有望重构中国人工智能芯片市场格局。
(3)分布式并行计算环境下,多卡互连成为算力竞争的核心要素
随着模型规模、数据量、参数量的快速增长,单一芯片、单台计算设备已经无法满足不断涌现的大规模数据、多任务应用的需求。通过集群互连弥补单卡性能不足、使用多台设备同时运算的“分布式并行”策略成为了当前及未来发展的主流选择,基于 Scale Up 与 Scale Out 的技术应运而生。
Scale Up 通过增加单服务器内部的 GPU 数量,形成超节点,以满足大规模模型训练的需求;Scale Out则通过增加服务器数量,构建大规模分布式计算集群。Google、Meta、Microsoft等海外大厂已纷纷布局大集群超级计算机,如 Google 推出超级计算机 A3 VirtualMachines,拥有26,000块英伟达H100 GPU,同时基于自研芯片搭建TPUv5p 8,960卡集群,通过大规模服务器组成集群计算优势,不断优化服务架构,提升用户体验。
然而并行计算所产生的集合通信数据规模极大,如何部署、连接和调用这些分布式的计算网络或设备,以实现给定硬件条件下的最高运算效率,成为制约大模型分布式计算的瓶颈。高速互连技术则在此环节发挥了关键作用,多卡互连能力、卡间互连带宽直接影响集群有效算力,更优的互连技术方案能更好支持数据并行、流水线并行和张量并行等策略。
例如,在多 GPU 系统内部,PCIe 总线的带宽有限,容易形成传输瓶颈,并且无法实现 GPU 的直接互连,将增加额外的网络延迟,影响系统运行效率,亟需性能更强的专用互连技术。英伟达推出的NVLink 实现了 GPU 之间的直接互连,提供相较于传统 PCIe 总线更加快速、更低延迟的系统内互连解决方案。从国内来看,仅有少数 GPU 厂商在卡间互连能力上取得阶段性进展。因此,在分布式计算环境下,高速互连技术不断升级系大势所趋。
(4)随着应用市场的繁荣发展,软件生态将成为人工智能芯片易用性的关键底座
对于开发者和使用者而言,人工智能芯片的易用性是除产品性能外的另一大门槛。软件生态作为人工智能模型和底层硬件之间的接口,则是影响芯片易用性的核心。GPU 硬件设计复杂度较高,人工智能应用的开发和部署需要借助丰富的软件生态,以实现对底层硬件资源的深度利用。相关软件工具需要与 GPU 硬件协同优化以确保 GPU 的高性能和易用性。
近年来,国产 GPU 的理论算力和理论带宽虽然已不断缩小与国际头部厂商的差距,实际运行却往往面临软件生态的限制,实测结果、实际运行的稳定性与理论性能存在较大差异。此外,在算子高频更新的大模型时代,软件生态能力决定了落地场景的丰富度。
随着人工智能应用逐渐向 AI Agent、具身智能延展,与业务紧密结合的人工智能应用场景逐渐落地,完善的软件生态将与应用市场相辅相成,共同促进人工智能市场的不断繁荣。国际领先企业英伟达凭借长久以来的经验积累以及产品推广已形成了较为完善的 CUDA 软件生态,在开发生态、应用生态等方面具有明显的领先优势。截至目前,CUDA 开发者超 600 万,加速库及模型数量突破 900 个。
对于国产GPU 厂商而言,自建生态需要较长时间才能完成工具链完善与开发者迁移,因此国产厂商在自建生态的同时保持对 CUDA 生态的兼容能够有效实现软件层的自主可控与平稳过渡,既能在中短期内保持较低的迁移成本、较高的迁移效率,增强客户使用国产 GPU 产品的意愿,长期来看也能降低对海外算力资产的依赖。
(5)云边端融合发展,通用型计算芯片与专用型计算芯片将共同构建一体化生态
算法创新和开源普惠为人工智能应用大规模落地奠定了坚实的基础。当前全球算力重心正处于从预训练 Scaling Law 向后训练 Scaling Law 和推理阶段Test-time Scaling Law 的转移过程中,基于强化学习、思维链等算法创新,在后训练和推理阶段投入更多的算力可以进一步提升大模型的深度思考能力,长期来看为人工智能应用打开了商业化空间。三大 Scaling Law 共同支撑着全球算力需求,驱动人工智能应用在云端、边缘端和终端融合发展。
从宏观的角度来看,云边端将结合各自特征承担不同的职能。云端作为资本开支最大、计算能力要求最高的需求场景,将成为人工智能训练和推理的“智能大脑”,处理重量级人工智能任务,如通用基础大模型的训练、垂直大模型的复杂推理等;端侧(边缘端、终端)则是综合平衡性能和负载的选择,作为“小脑”和“四肢”处理即时、轻量级人工智能任务,如简单推理,将以更多元的形态进入千家万户,包括 AI 手机、AI PC、AI 眼镜、AI 玩具、AI 机器人等。云边端融合发展的背景下,对人工智能芯片提出了不同的需求。
云端快速迭代的算法和大量非传统模型结构的出现需要通用型计算芯片(GPU)完成高效迁移与适配;而端侧对功耗、负载的敏感度亦新增了对专用型计算芯片的需求,专用型计算芯片可针对固定模型结构及特定应用场景提供更具能效比的解决方案,成为通用型计算芯片的有效补充。因此长期来看,未来通用型计算芯片和专用型计算芯片将各有侧重,共同构建一体化生态。
2、行业内主要企业
(1)国外同行业上市公司
1)英伟达(NVDA.O)
英伟达(NVIDIA)成立于 1993 年,总部位于美国加利福尼亚州圣克拉拉市,于 1999 年 1 月在美国纳斯达克上市,是全球最大的 GPU 供应商。英伟达的 GPU产品被广泛应用于数据中心、消费电子、智能驾驶等场景的图形渲染、科学计算和人工智能任务。在人工智能领域,英伟达的 GPU 产品可覆盖云端训练、云端推理、终端推理等各类应用场景,尤其在云端(智算中心)的泛人工智能类芯片市场占据绝对优势地位。英伟达还开发了一系列软件工具,如 TensorRT、DeepStream 等,并构建了在全球范围内高度垄断的 CUDA 生态,以帮助开发者更高效地使用其芯片。英伟达 2025 财年的营业收入为 1,304.97 亿美元,其中数据中心业务营业收入达到 1,151.86 亿美元,净利润为 728.80 亿美元。
2)AMD(AMD.O)
AMD(超威半导体)成立于 1969 年,总部位于美国硅谷,于 1979 年 9 月在美国纳斯达克上市,并在 1986 年 1 月在美国纽约证券交易所上市。AMD 主要为计算机、通信和消费电子等行业设计各种微处理器(CPU、GPU、APU 等),是一家国际领先的同时拥有中央处理器和图形处理器核心技术的集成电路设计公司。AMD 也推出了一系列软件工具,如 Radeon Software、Radeon ProRender和 Ryzen Master 等,开发了 ROCm 生态,以帮助开发者更好地使用其 CPU 和GPU 产品。AMD 2024 财年的营业收入为 257.85 亿美元,净利润为 16.41 亿美元。
(2)国内同行业上市公司
1)寒武纪(688256.SH)
寒武纪成立于 2016 年,2020 年 7 月在上交所科创板上市,主要从事云端、终端、边缘端人工智能芯片的设计和研发。寒武纪的产品主要为云端智能芯片及板卡、智能整机、边缘智能芯片及板卡、终端智能处理器 IP 以及与上述产品配套的基础系统软件。寒武纪产品广泛应用于消费电子、数据中心、云计算等诸多场景。2024 年,寒武纪营业收入为 11.74 亿元,净亏损为 4.57 亿元。2025 年 1-3月,寒武纪营业收入为 11.11 亿元,净利润为 3.55 亿元。
2)海光信息(688041.SH)
海光信息成立于 2014 年,2022 年 8 月在上交所科创板上市,主要从事服务器、工作站等计算、存储设备中的高端处理器的研发、设计和销售,相关产品包括海光通用处理器(CPU)和海光协处理器(DCU)。其中海光信息 DCU 产品基于 GPGPU 架构,兼容通用的“类 CUDA”环境,主要应用于大数据处理、人工智能、商业计算等领域,主要部署在服务器集群或数据中心。2024 年,海光信息营业收入为 91.62 亿元,净利润为 27.17 亿元。
3)景嘉微(300474.SZ)
景嘉微成立于 2006 年,2016 年 3 月在深交所创业板上市,主要从事 GPU及相关产品的研发、生产和销售,相关产品包括图形显控、小型专用化雷达领域的核心模块及系统级产品等。景嘉微早年主要依靠图形显控产品和小型专用化雷达领域产品在军工领域的应用推动发展。2019 年,景嘉微的 JM7200 图形显示芯片获得首份订单,GPU 产品为公司业绩开拓出强劲的第二增长曲线。2024 年,景嘉微营业收入为 4.66 亿元,净亏损为 1.65 亿元。
4)龙芯中科(688047.SH)
龙芯中科成立于 2008 年,2022 年 6 月在上交所科创板上市,主营业务为处理器及配套芯片的研制、销售及服务,主要产品与服务包括处理器及配套芯片产品与基础软硬件解决方案业务。在 GPU 芯片产品方面,龙芯中科面向服务器及个人计算机领域推出了龙芯 3 号系列处理器配套桥片,集成了自研 GPU。2024年,龙芯中科营业收入为 5.04 亿元,净亏损为 6.25 亿元。
(3)国内同行业未上市公司
1)华为海思
深圳市海思半导体有限公司成立于 2004 年,是华为集团的全资子公司,专注于半导体和集成电路领域的研发和销售,也是国内营收规模最大的集成电路设计企业。其产品覆盖智慧视觉、智慧 IoT、智慧媒体、智慧出行、显示交互、手机终端、数据中心及光收发器等多个领域。在人工智能芯片领域,华为海思研发的昇腾系列采用华为自研的达芬奇架构,广泛应用于国内人工智能训练和推理。
2)昆仑芯昆
仑芯(北京)科技有限公司成立于 2011 年,其前身为百度集团智能芯片及架构部,于 2021 年完成独立融资。昆仑芯是一家在体系结构、芯片实现、软件系统和场景应用均有深厚积累的 AI 芯片企业。
3)天数智芯
上海天数智芯半导体股份有限公司成立于 2015 年,是通用 GPU 高端芯片及超级算力系统提供商,其产品包括天垓训练系列和智铠推理系列。
4)壁仞科技
上海壁仞科技股份有限公司成立于 2019 年,是高性能通用 GPU 芯片的提供商,打造了高性能 GPU 软硬件体系,其通用 GPU 产品基于训推一体芯片架构,针对人工智能训练、推理,及科学计算等通用计算场景开发。
5)摩尔线程
摩尔线程智能科技(北京)股份有限公司成立于 2020 年,主要从事全功能GPU 芯片的研发、设计和销售,提供人工智能、云与数据中心、高性能渲染、视频加速等解决方案。
6)燧原科技
上海燧原科技股份有限公司成立于 2018 年,专注人工智能领域云端算力产品,提供人工智能加速卡、系统集群和软硬件解决方案,其产品主要应用于泛互联网、智算中心、智慧城市,智慧金融、科学计算、自动驾驶等领域。
7)沐曦股份
公司是国内高性能通用 GPU 的领导者之一,产品性能达到了国际上同类型主流高端处理器的水平,在国内处于领先地位。面对不断升级的地缘政治摩擦和新一代人工智能革命,发行人以推动我国智能算力产业链自主可控为己任,立足拥有巨大发展潜力和黄金发展机遇的人工智能计算市场,围绕人工智能计算、通用计算和图形渲染三大领域,不断积累 GPU IP(包括指令集、微架构等)、GPUSoC、高速互连、GPU 软件等研发与落地经验,在国内人工智能计算行业具有领先的市场地位和品牌影响力,对推动我国人工智能产业链自主可控具有重要意义
多行业研究分析请参考思瀚产业研究院官网,同时思瀚产业研究院亦提供行研报告、可研报告(立项审批备案、银行贷款、投资决策、集团上会)、产业规划、园区规划、商业计划书(股权融资、招商合资、内部决策)、专项调研、建筑设计、境外投资报告等相关咨询服务方案。