AI 大模型智算网的建设演进需适配企业战略及业务发展,业务需求驱动技术发展,同时新技术革新反哺业务,有效驱动金融行业加速数字化、智能化转型,整体来看会经历3个主要发展阶段。
一是打造 AI 网络底座,支撑行业千亿模型训练,优化智能场景服务,如提升风险投顾精准度,人工客服及个性化推荐满意度等。智算网络需支持 200G/400G 速率连接百卡至千卡规模,并通过负载均衡、流量控制等技术,打造高性能、高可用的智算网络基础能力;同时围绕智算网络,构建简化运管复杂性的自动化运维网络能力。
二是构建 AI 网络系统,支撑行业万亿模型训练及推广推理应用,多元化智能场景服务,如数字柜员与无人银行,基于音/视频/文复杂业务流程一体化自助办理。智算网络需具备400G/800G 速率实现高性能万卡连接,并基于端网协同,与AI计算平台联合调度,构建高速无阻塞高可用智算网络系统;同时以 AI 技术反哺网络运维,构建网络大模型以构建智能化运维网络能力。
三是完善 AI 网络生态,支撑模型能力延展,完善生态化服务场景。支撑企业 AI Agent 系统构建,从自挖掘价值业务场景,到自优化服务对象;从业务需求到网络能力,最终构建一个可自检、自治、自愈、自闭环的 AI 网络智能体。
AI大模型智算网是金融科技数字化转型的关键技术之一,各金融机构正积极探索、试点及推动建设。目前部分大型金融机构已完成阶段一构建基础能力智算网,并论证试点阶段二能力,其他机构也在阶段一的探索和筹备构建中。
(二)新技术创新方向
从技术研究角度看,AI 大模型智算网技术,未来主要面临3个新技术研究及创新方向。
一是重构协议栈,优化网络能力。以UEC 全栈协议技术为典型代表,重定义网络分层、协议能力以优化网络,聚焦提升带宽利用率,精准控制拥塞,优化反压机制。通过模型分层重构,物理层、链路层、传输层和软件层,并基于每一层围绕大规模、高性能为优化目标,构建端到端全栈增强系统。网络向下与端芯协同,向上与集合通信、AI 应用联合,纵观全产业,各技术流派方向趋同、技术不一,但最终效果如何、能否达到提升AI性能,同时此上下协同模式是否会因单领域限制产生木板效应,还需在后续课题继续研究。
二是突破单机卡限制,构建超万卡集群。传统的单机8卡配置,可满足中等规模任务训练的需求,但面对未来数万卡乃至十万卡规模训练任务,其算力和扩展性将面临挑战,产业已开始研究在 AI 集群中引入了超节点技术。超节点设计能有效整合和调度集群中的资源,突破单机 8 卡硬件限制,实现AI 超万卡集群的构建。该技术的成熟度、是否具备可推广使用能力,兼顾金融业务对构建超万卡 AI 集群的紧迫性和必要性,还待继续考察。
三是构建网络智能体,支撑AI agent 基础设施生态构建。随着 AI 大模型在行业的推广,以及基于LLM 驱动的Agents自动化逐步落地,金融各机构会拥有越来越多的AI Agents处理任务。网络也将具备 AI Agent(网络智能体)能力,支撑AIAgent基础设施生态构建。当前金融行业已在金融分析、金融风控、贷后处置三类场景进行 AI agent 研究创新,但各场景涌现的准度不高,网络智能体及 AI Agent 基础设施生态构建,还待继续考察。
更多行业研究分析请参考思瀚产业研究院官网,同时思瀚产业研究院亦提供行研报告、可研报告(立项审批备案、银行贷款、投资决策、集团上会)、产业规划、园区规划、商业计划书(股权融资、招商合资、内部决策)、专项调研、建筑设计、境外投资报告等相关咨询服务方案。