当前人工智能技术已在多个领域展现出卓越的实力,接近甚至超过人类水平:在自然语言处理领域,其阅读理解能力远超人类平均水平,能够精准解析复杂文本语义;在视觉领域,图像分类任务的准确率持续突破新高;在编程领域,智能代码生成工具不仅能高效完成复杂的编程任务,还能自动优化代码逻辑,展现出专业开发者级别的编程水准;在数学竞赛中,AI多次取得超越人类顶尖选手的优异成绩。当前大模型的推理能力不断提升,多模态理解和输出能力快速扩展,行动能力从数字世界渗透到物理世界,夯实通用目的技术的基础能力,为未来在行业的大规模应用奠定基础。
趋势一:强化学习驱动认知深化,模型推理能力持续提升
近年以来,预训练阶段的规模定律(Scaling Laws)持续有效,随着预训练阶段投入的数据量、计算资源以及模型参数的不断扩大,模型的性能呈现稳步提升的态势。但在近期,预训练阶段提高模型参数量带来的边际收益开始递减。为了继续提升模型解决长程问题的能力,在后训练(post-training)阶段使用强化学习等技术引导模型从被动应答转向主动求解,让模型的表现取得了突破。
全球人工智能机构纷纷开始尝试挖掘强化学习在后训练阶段的巨大潜力,并推出推理模型,如OpenAI o3、Gemini 2.5 Pro、DeepSeek R1、Qwen3等。实践表明,在后训练阶段投入更多算力得到的推理,随着思考时间以及消耗token的增加,解决复杂问题的能力也随之提升。意味着Scaling Laws从预训练阶段逐渐向后训练以及推理时(test-time)阶段延伸。大模型将继续借助强化学习等技术持续提升思考能力,变得越来越聪明。
当前,基于结果、过程和格式反馈的强化学习在数学、物理、编码等任务中取得了良好的效果,并表现出良好的泛化能力。未来,可以通过模型内生的思维链来替代重度依靠工程实现的流程节点编排模式,同步大幅解决常见的幻觉问题。
强化学习也将和工具使用结合在一起,由大模型判断应该使用何种工具来解决不同的问题,并且根据返回结果进一步推理思考,将有能力解决越来越多的复杂任务。推理时科学的资源消耗规划也将进一步增强,大模型将学会自行判断应该使用快思考还是慢思考来解决特定问题,从而能够在应该响应快的时候更快、应该深层推理时思考得更深,自行优化资源的消耗。
趋势二:多模态融合加快推进,拓展智能交互边界
近年来生成式人工智能的能力快速提升,并在内容生成、信息检索等方面的能力已得到广泛验证和认可,涌现出一系列语言模型、视频图片理解模型、文生图模型、文生视频模型。然而,现实世界中的信息是多模态的,包括文字、图片、视频、声音、触感等。人类在感知世界时通过多种感官来获取信息,例如视觉、听觉、触觉、嗅觉等。多模态大模型能够像人类一样综合多种信息源,从而提供更全面、更符合人类认知习惯的知识表示。主要大模型厂商纷纷推出多模态大模型,如GPT-4o和Qwen2.5-Omni等。
多模态大模型的核心能力体现在数据处理和学习能力上,需要能够整合多模数据实现跨模态融合,学习不同模态间的关联和映射,平衡各模态的贡献做好模态融合。未来多模态技术将进一步提升通用性与泛化能力,通过统一架构实现跨模态、跨任务的灵活适应,减少对特定数据训练的依赖,使AI系统能像人类一样广泛理解并处理未知场景。
交互方式将更加智能自然,模型不仅能解析文字、图像、语音、视频等多元信号,还能融合表情、语调、手势等多维信息,实现情景化、拟人化的双向沟通,大幅提升人机协作体验。相比单模态模型,多模态模型将显著提升响应速度。在现实应用中,实时处理能力还需进一步加强,面向自动驾驶、AR/VR等实时互动场景,优化模型架构与硬件协同设计,实现多模态数据流的低延迟融合与即时响应。
趋势三:云边端深度协同,推动智能应用纵深发展
当下,大模型应用正快步向端侧大规模普及。智能终端厂商纷纷通过大模型应用提升用户体验。手机厂商将大模型植入智能手机系统,实现智能语音助手的超精准交互。智能家居厂商借助大模型让家居设备互联互通,依据居住者习惯精准调控家电,打造个性化舒适空间。端侧硬件能力相对薄弱成为大模型端侧应用的最大掣肘。在推理方面上,端侧芯片算力不足可能致使模型处理数据迟缓,难以满足实时需求;在存储方面,有限的存储容量难以容纳庞大的模型参数;能耗更是一大痛点,持续高能耗会大幅缩短终端续航。
在这种情况下,通过模型压缩技术得到的小尺寸模型受到端侧应用场景的青睐。当前常见的模型压缩方法主要有量化(Quantization)、模型蒸馏(Distillation)、剪枝(Pruning)、低秩分解(Low-Rank Factorization)等。其中蒸馏技术近期特别受到关注,由能力强的大尺寸模型蒸馏得到的小尺寸模型,在某些领域展现出仅有微量的性能损失。
未来,端侧AI的发展将呈现多方面的突破与融合。更高效的蒸馏技术和模型量化算法、更智能的架构设计将推动小尺寸模型的能力不断提升。模型的训练、推理工程化能力的进步也将提升在有限算力设备上可运行模型的尺寸。从系统架构的层面,云、边、端三者的融合将成为趋势:云端大模型承担智能的上限,边侧和端侧在实时响应和隐私保护方面发挥重要作用。
趋势四:AI Agent迅速发展,以目标驱动替代指令响应
当前大模型虽在文本生成、信息检索等任务中展现强大能力,但其被动响应机制与碎片化决策模式仍与人类的思维方式存在本质差异。面对需要长期规划的任务或动态环境中的实时调整以及主动工具调用,大模型往往缺乏自主推理和持续学习能力,在指令响应阶段徘徊。为突破这一瓶颈,基于大模型的智能体(Agent)成为将智能作用于行动的桥梁。据Research and Market预估,AI智能体的市场规模将从2024年的51亿美元增长到2030年的471亿美元,年均复合增长率为44.8%。国内外机构已经积极推出垂直Agent产品,给定目标即可自行分解任务拿到结果。
Agent运行机制围绕规划(Planning)、记忆(Memory)、反思(React)、工具(Tool Use)等要素,目前已取得一系列能力突破。在规划能力方面,随着基座模型推理能力的提升,能够将复杂目标拆解为可执行的子任务序列,在Agent系统中通过实时评估环境反馈以调整策略,Agent的任务分解与动态决策效率得以增强。记忆系统的发展让Agent能够拥有用户行为的超长上下文,从而能够更好地理解用户意图,处理长时间序列任务。
在工具使用领域的突破尤为突出,模型上下文协议(Model Context Protocol, MCP)消除了基础模型和外部工具之间的适配成本,已成为事实标准,繁荣了Agent可调用的工具生态。未来,Agent基于不确定目标的推演能力、对Agent行为进行在线强化学习以及Agent效果评测将成为突破重点,推动Agent的能力提升以及多Agent协作不断增强。
趋势五:具身智能迈向深度情境理解与自主交互
人工智能发展的重要方向是由数字世界进入物理世界,具身智能(Embodied Intelligence)作为这一方向的重要技术,将AI深度融入物理实体(如机器人),赋予其自主感知、学习与环境实时交互的能力,受到广泛的关注。2025年,政府工作报告首次提及具身智能。
IT桔子数据显示,2025年前三个月,中国具身智能领域共发生投融资事件超40起,成为最受资本青睐的赛道之一,充分彰显其技术潜力与商业价值。大模型的发展推动了具身智能在深度智能化以及运动控制领域的进展,表现出深度情境理解能力与自主交互能力大幅提升。
在深度智能化领域,呈现出大脑和小脑相结合的技术路线:由大脑负责显式的高层级规划,将任务拆分为子步骤;小脑负责将子步骤转化为机械动作,实现运动控制。在运动控制领域,模仿学习侧重于观察和模仿专家策略,强化学习强调基于环境采取行动以取得最大化的预期利益,扩散模型也在多模态动作预测与生成领域表现出良好效果。
具身智能(特别是Vision-Language-Action, VLA模型)所需的任务动作数据采集成本依然很高,合成数据为补足真实数据缺口提供了有效方案。当前阶段具身智能的技术路线并未收敛,基于世界模型的高精度模拟环境、多模态联合建模、具身智能的自我认知等领域仍需进一步突破,多种技术也在互相融合,彼此取长补短。
趋势六:AI基础设施持续精进,构筑高效能AI发展底座
人工智能技术的快速发展对IT基础设施提出了前所未有的挑战。随着计算量的增加,IT基础设施从以CPU为核心向以GPU为核心开始转化。随着scaling laws从预训练阶段向后训练以及推理时阶段延伸以及AI应用的大规模落地,对基础设施的需求还会进一步爆发。未来十年, AI 的发展可能需要100万倍的算力支撑。
面对飞速增长的算力需求,一方面,计算、存储、网络需协同发展,构建大规模训练和推理集群。万卡、十万卡级别的算力集群需要超大规模和超高交换能力的网络系统、超高吞吐超低延迟能够处理多模态数据的存储系统、高性能算子优化和任务管理调度能力,全面提升集群的加速比和利用率。
大规模集群的能耗问题已经相当严峻,能耗优化技术也在相应发展。另一方面,在算力供给受限的情况下,通过极致的工程优化充分释放现有硬件设备的计算能力也成为重要课题。MoE架构下细粒度的专家并行机制、面对小卡环境的细粒度流水线并行、低位宽与稀疏训练、卡级别和节点级别的PD分离(Prefill-Decode Disaggregation)、KV Cache的深度优化等技术组合使用,可以在一定程度上缓解高端GPU的短缺,构筑高效能AI发展的坚实底座。
更多行业研究分析请参考思瀚产业研究院官网,同时思瀚产业研究院亦提供行研报告、可研报告(立项审批备案、银行贷款、投资决策、集团上会)、产业规划、园区规划、商业计划书(股权融资、招商合资、内部决策)、专项调研、建筑设计、境外投资报告等相关咨询服务方案。