首 页
研究报告

医疗健康信息技术装备制造汽车及零部件文体教育现代服务业金融保险旅游酒店绿色环保能源电力化工新材料房地产建筑建材交通运输社消零售轻工业家电数码产品现代农业投资环境

产业规划

产业规划专题产业规划案例

可研报告

可研报告专题可研报告案例

商业计划书

商业计划书专题商业计划书案例

园区规划

园区规划专题园区规划案例

大健康

大健康专题大健康案例

行业新闻

产业新闻产业资讯产业投资产业数据产业科技产业政策

关于我们

公司简介发展历程品质保证公司新闻

当前位置:思瀚首页 >> 行业新闻 >>  产业科技

DeepSeek 引领国产大模型崛起,助力 AI 应用大规模落地
思瀚产业研究院    2025-06-21

DeepSeek 通过技术创新实现大模型训练及推理极高性价比。2024 年 12 月 26 日,DeepSeek 正式发布全新系列模型 DeepSeek-V3,DeepSeek-V3 为自研 MoE 模型,总参数量为 671B,每个 token 激活 37B 参数,在 14.8T token 上进行了预训练。DeepSeek-V3 在性能上对标 OpenAI GPT-4o 模型,并在成本上优势巨大,实现极高的性价比。

DeepSeek-V3的技术创新主要体现在采用混合专家(MoE)架构,动态选择最合适的子模型来处理输入数据,以降低计算量;引入多头潜在注意力机制(MLA)降低内存占用和计算成本,同时保持高性能;采用 FP8 混合精度训练降低算力资源消耗,同时保持模型性能;采用多 Token 预测(MTP)方法提升模型训练和推理的效率。

DeepSeek-R1 通过冷启动与多阶段训练显著提升模型的推理能力,模型蒸馏技术有望推动 AI 应用加速落地。2025 年 1 月 20 日 DeepSeek-R1 正式发布,DeepSeek-R1-Zero 与DeepSeek-R1 都是基于强化学习(RL)的推理模型,DeepSeek-R1-Zero 存在语言不一致等输出方面的问题,DeepSeek-R1 通过冷启动与多阶段训练,显著提升模型的推理能力,同时具有较好的实用性。

DeepSeek-R1 采用模型蒸馏技术,将大模型(教师模型)的推理能力高效迁移到小模型(学生模型)中;模型蒸馏的核心思想是通过教师模型的输出指导学生模型的训练,使学生模型能够模仿教师模型的行为;通过蒸馏技术,小模型能够保留大模型的大部分性能,DeepSeek-R1 蒸馏后的小模型在多个基准测试中表现出色;DeepSeek-R1 的模型蒸馏技术显著提升小模型的推理能力,并降低部署成本,有望推动 AI 应用加速落地。

DeepSeek-V3 性能对标 GPT-4o。DeepSeek-V3 多项评测成绩超越了 Qwen2.5-72B 和Llama-3.1-405B 等其他开源模型,并在性能上和世界顶尖的闭源模型 GPT-4o 以及Claude-3.5-Sonnet 不分伯仲。DeepSeek-V3 在知识类任务(MMLU, MMLU-Pro, GPQA,SimpleQA)上的水平相比前代 DeepSeek-V2.5 显著提升,接近当前表现最好的模型Claude-3.5-Sonnet-1022;

长文本测评方面,在 DROP、FRAMES 和 LongBench v2 上,DeepSeek-V3 平均表现超越其他模型;DeepSeek-V3 在算法类代码场景(Codeforces),远远领先于市面上已有的全部非 o1 类模型,并在工程类代码场景(SWE-Bench Verified)逼近Claude-3.5-Sonnet-1022;在美国数学竞赛(AIME 2024, MATH)和全国高中数学联赛(CNMO2024)上,DeepSeek-V3 大幅超过了所有开源闭源模型;DeepSeek-V3 与 Qwen2.5-72B 在教育类测评 C-Eval 和代词消歧等评测集上表现相近,但在事实知识 C-SimpleQA 上更为领先。

DeepSeek-R1 性能对标 OpenAI o1。DeepSeek-R1 极大提升了模型推理能力,在数学、代码、自然语言推理等任务上,性能比肩 OpenAI o1 正式版。DeepSeek 在开源DeepSeek-R1-Zero 和 DeepSeek-R1 两个 660B 模型的同时,通过 DeepSeek-R1 的输出,蒸馏了 6 个小模型开源给社区,其中 32B 和 70B 模型在多项能力上实现了对标 OpenAI o1-mini的效果。

DeepSeek 实现大模型训练与推理成本优势巨大,并采用开源模式,助力 AI 应用大规模落地。DeepSeek-V3 的训练成本具有极大的经济性,根据 DeepSeek-R1 Technical Report 的数据,在预训练阶段,每处理 1 万亿 tokens,训练 DeepSeek-V3 仅需 18 万 H800 GPU 小时,即在 2048 块 H800 GPU 的集群上需要 3.7 天;因此,DeepSeek-V3 的预训练阶段在不到两个月内完成,耗时 266.4 万(2664K)GPU 小时;加上上下文长度扩展所需的 11.9 万 GPU 小时和后训练所需的 5 千 GPU 小时,DeepSeek-V3 的完整训练仅需 278.8 万 GPU 小时;假设 H800GPU 的租赁价格为每小时 2 美元,DeepSeek-V3 的总训练成本仅为 557.6 万美元。

DeepSeek-R1 发布时的 API 定价为每百万输入 tokens 1 元(缓存命中)/ 4 元(缓存未命中),每百万输出 tokens 16 元;OpenAl o1 定价为每百万输入 tokens 55 元(缓存命中)/110 元(缓存未命中),每百万输出 tokens 438 元;DeepSeek-R1 API 调用成本不到 OpenAl o1 的 5%。DeepSeek-V3 性能对标 GPT-4o,DeepSeek-R1 性能对标 OpenAI o1,并且 DeepSeek 模型成本优势巨大,并采用开源模式,有望推动 AI 应用大规模落地。

文心大模型 4.5 Turbo 多模态能力优于 GPT 4o,并具有低成本优势。2025 年 4 月 25 日,百度发布文心大模型 4.5 Turbo、文心大模型 X1 Turbo,具备多模态、强推理、低成本三大特性,文心大模型 4.5 Turbo 和文心大模型 X1 Turbo 都进一步增强了多模态能力,在多个基准测试集中,文心大模型 4.5 Turbo 多模态能力优于 GPT 4o。文心大模型 4.5 Turbo 在去幻觉、逻辑推理和代码能力等方面也都有着整体增强,相比文心 4.5,速度更快、价格下降 80%,每百万 token 的输入价格仅为 0.8 元,输出价格 3.2 元。

文心大模型 X1 Turbo 是基于文心大模型4.5 Turbo 的深度思考模型,性能提升的同时,具备更先进的思维链,问答、创作、逻辑推理、工具调用和多模态能力进一步增强;文心大模型 X1 Turbo 相比文心 X1,性能提升的同时,价格再降 50%,每百万 token 输入价格 1 元,输出价格 4 元。

通义千问 Qwen3 模型性能上与顶级模型相比极具竞争力。2025 年 4 月 29 日上午,阿里正式发布并全部开源通义千问 Qwen3 全系列 8 款混合推理模型,包括两款 MoE 模型:Qwen3-235B-A22B(2350 多亿总参数、220 多亿激活参)、Qwen3-30B-A3B(300 亿总参数、30 亿激活参数);以及六个 Dense 模型:Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B 和 Qwen3-0.6B。旗舰模型 Qwen3-235B-A22B 在代码、数学、通用能力等基准测试中,与一众顶级模型相比,表现出极具竞争力的结果。

多行业研究分析请参考思瀚产业研究院官网,同时思瀚产业研究院亦提供行研报告、可研报告(立项审批备案、银行贷款、投资决策、集团上会)、产业规划、园区规划、商业计划书(股权融资、招商合资、内部决策)、专项调研、建筑设计、境外投资报告等相关咨询服务方案。

免责声明:
1.本站部分文章为转载,其目的在于传播更多信息,我们不对其准确性、完整性、及时性、有效性和适用性等任何的陈述和保证。本文仅代表作者本人观点,并不代表本网赞同其观点和对其真实性负责。
2.思瀚研究院一贯高度重视知识产权保护并遵守中国各项知识产权法律。如涉及文章内容、版权等问题,我们将及时沟通与处理。