阿里千问团队正式发布其最新的研究成果 QwQ-32B(Qwen-with-Questions)推理模型。根据团队介绍,QwQ-32B 是一款拥有 320 亿参数的模型,其性能可对标具备 6710 亿参数(其中 370 亿被激活)的 DeepSeek-R1。
此外,QwQ-32B 还在推理模型中集成了 Agent 能力,能够在使用工具的同时进行批判性思考,并根据环境反馈调整推理过程。算法层面,DeepSeek-R1 通过整合冷启动数据和多阶段训练,实现了最先进的性能,使其能够进行深度思考和复杂推理。
在基准测试中,团队评估了 QwQ-32B 的数学推理、编程能力和通用能力,发现 QwQ-32B 与其他领先模型的性能相当。在测试数学能力的 AIME24 评测集上,以及评估代码能力的 LiveCodeBench 中,千问 QwQ-32B 表现与 DeepSeek-R1相当,远胜于 o1-mini 及相同尺寸的 R1 蒸馏模型;通用能力方面,在由 Meta 首席科学家杨立昆领衔的“最难 LLMs 评测榜” LiveBench、谷歌等提出的指令遵循能力 IFEval 评测集、由加州大学伯克利分校等提出的评估准确调用函数或工具方面的 BFCL 测试中,千问 QwQ-32B 的得分均超越了 DeepSeek- R1。
大幅降低部署使用成本,采用宽松开源协议可商用。根据阿里云公众号,千问QwQ-32B 大幅降低了部署使用成本,在消费级显卡上也能实现本地部署。此次,阿里云采用宽松的 Apache2.0 协议,将千问 QwQ-32B 模型向全球开源,所有人都可免费下载及商用。同时,用户将可通过通义 APP 免费体验最新的千问 QwQ-32B 模型。
根据智东西公众号,QwQ-32B 需要GPU 上的 24GB vRAM(英伟达 H100 为 80GB),而运行完整的 DeepSeek R1 需要超过 1500GB vRAM;苹果的机器学习科学家Awni Hannun 发文,展示了 QwQ-32B 在配备MLX(专门为苹果芯片设计的开源框架)的M4 Max 芯片电脑上的运行速度很快。
巨额资金投入计划彰显公司对于 AI 产业的信心。阿里云为亚洲头部云计算公司,通义千问大模型为全球知名的开源模型,根据新华社报道,阿里巴巴近期宣布,未来三年将投入超过 3800 亿元,用于建设云和AI 硬件基础设施,总额超过去十年总和,创下中国民营企业在云和 AI 硬件基础设施建设领域有史以来最大规模投资纪录。
阿里巴巴集团 CEO 吴泳铭表示:“AI爆发远超预期,国内科技产业方兴未艾,潜力巨大。阿里巴巴将不遗余力加速云和 AI 硬件基础设施建设,助推全行业生态发展。,一方面阿里 QwQ-32B 仅通过 320 亿参数可实现对标满血版 DeepSeek-R1 的性能,有助于大幅降低 AI 应用端部署使用成本,加速各行各业 AI 应用开发和孵化。
另一方面,阿里三年 3800 亿元巨额资金投入计划用于建设云和AI 硬件基础设施,总额超过去十年总和,充分彰显了公司对于 AI 产业的信心,我们继续看好 AI 产业的蓬勃发展。
更多行业研究分析请参考思瀚产业研究院官网,同时思瀚产业研究院亦提供行研报告、可研报告(立项审批备案、银行贷款、投资决策、集团上会)、产业规划、园区规划、商业计划书(股权融资、招商合资、内部决策)、专项调研、建筑设计、境外投资报告等相关咨询服务方案。