首 页
研究报告

医疗健康信息技术装备制造汽车及零部件文体教育现代服务业金融保险旅游酒店绿色环保能源电力化工新材料房地产建筑建材交通运输社消零售轻工业家电数码产品现代农业投资环境

产业规划

产业规划专题产业规划案例

可研报告

可研报告专题可研报告案例

商业计划书

商业计划书专题商业计划书案例

园区规划

园区规划专题园区规划案例

大健康

大健康专题大健康案例

行业新闻

产业新闻产业资讯产业投资产业数据产业科技产业政策

关于我们

公司简介发展历程品质保证公司新闻

当前位置:思瀚首页 >> 行业新闻 >>  产业科技

智算网络整体架构及关键技术
思瀚产业研究院    2025-06-02

金融机构普遍采用多地多中心、多分支网络互联架构。在AI 大模型训练初期,集群规模较小,单数据中心即可集中部署训练资源池;后续随着算力规模增长,如万卡集群,可能会涉及同城多数据中心甚至跨城市数据中心的AI 集群融合承载。另外,边缘数据中心可部署靠近用户的推理任务,以实现业务的快速决策与处理能力,提升客户体验。

金融 AI 智算网络在基础设施之上,以网络运载力支撑AI算力充分释放,不仅涉及数据中心网络,还涉及高吞吐的骨干网络和敏捷低时延的分支网络,AI 算力网络如图2 所示。都需要在性能、可用性、可靠性和安全性多方面保障,以提升算力网络的智能化水平和算力能效。

(一)高性能网络拓展算力规模

金融 AI 大模型具有更高的泛化能力,提升了智能化程度,也带来了模型参数量增大,数据规模增大,集群算力急剧提升的需求。网络性能 10%的提升,能够撬动整体性能、投入产出和能耗效能数倍的提升,因此高算力集群的构建,依赖高性能互联的网络。

一是使用高带宽网络设备释放算力性能。千亿参数大模型训练过程中通信占比最大达 50%,且模型越大、通信占比越高。以GPT3.5为例,当接入带宽提升16倍,通信占比从35%降低至3.7%,All-Reduce 训练周期缩短 14 倍。由此可见网络带宽是构建高集群算力的基础。当前业界 AI 服务器的单端口带宽已普遍具备100G/200G 能力,未来网络设备应具备单端口400G/800G能力,以满足 AI 集群训练的高性能数据传输。

二是使用 CLOS 架构支撑大集群规模。大规模训练集群场景网络通常采用 CLOS 组网架构,其优点是全互联组网支持大算力集群,网络带宽上限更高,配合负载均衡技术可使链路达到近满带宽传输数据,同时通用性和扩展性也更好。

三是使用数据消冗提升跨中心传输带宽。AI 大模型智算网范围不仅包含在数据中心内,例如生产中心和智算中心部署在不同数据中心,需要将生产数据以批量或实时方式传输到训练区域,此时会涉及跨骨干网传输,而骨干网租用运营商专线费用高昂。广域网络数据消冗技术,采用路由器设备插板方案,能有效减小跨 DC 的传输数据量,大幅减少专线租用费用。

(二)高可用网络提升算力效率

算力效率的充分发挥依赖高可用网络基础,需构建快速故障恢复能力的高可用网络,减少因网络故障中断、网络拥塞低效等问题带来的算力资源浪费,保障分布式计算任务的稳定进行。

1.高可靠传输网络

相较于传统网络,大模型训练网络对丢包中断等异常情况的容忍度更低,对故障敏感度更高,收敛时间要求更严,有更高的可靠性要求。传统网络依赖控制面协议探测协商,故障中断时可能产生百毫秒左右的短暂中断,但是这百毫秒中断若发生在数据读取或模型更新等关键阶段,系统会丢弃这批数据或在恢复后重新计算,从而浪费计算资源,延长训练时间,因此网络异常的收敛时间越短,对 AI 训练网可用性的提升越大。使用数据面快速故障恢复技术,实现AI 算力网故障快速恢复。

①故障快速感知:转发芯片快速感知链路故障,路由选路联动故障状态,感知故障影响的业务流。

②故障远程通告:硬件生成故障远程通告报文,携带故障路由/流,通告上游设备,解决本地设备无法保护切换。

③ 故障快速自愈:远端设备基于远程故障通告,快切流量转发路径,实现业务自愈。使用数据面快速故障恢复技术网络收敛性能,相比传统网络百毫秒的故障收敛时长,最快可提升至亚毫秒级,显著减少故障场景对训练任务的影响。

2.高效率传输网络

在 AI 大模型训练环境中,算力服务器间需频繁通信做模型参数交换,网络传输效率优劣直接影响分布式集群训练效率。因此为了最大限度提升传输效率,AI 大模型智算网按照1:1无收敛网络架构设计,实现均衡无损传输,从而使整网利用率达到100%。而在实际应用中,网络高效利用遇到两个重大难题。

一是流量负载不均衡。AI 大模型训练是同步模式的集群训练,即一个训练迭代周期取决于处理最慢的流。网络拥塞概率越大,通信时延越大,则 AI 大模型训练周期越长。负载均衡是避免网络拥塞的关键手段,而传统ECMP 技术无法解决大模型训练场景诉求。有测试数据表明,即使在不产生拥塞情况下,ECMP流级负载均衡会导致约 10% 的应用流完成时间指标是理想状态下的 1.5 倍以上,应用性能劣化明显。因此大模型业务负载不均,需要更优技术手段来解决。

二是拥塞影响范围大。高性能网络go-back-N 的丢包重传机制,以及 PFC 队列拥塞反压机制决定了AI 训练网络拥塞时的影响远比传统网络大。传统 TCP 网络采用丢包选择性重传及滑动窗口机制实现拥塞控制,而高性能RoCE 网络传输层是基于无连接UDP 实现,需要依赖上层 go-back-N 重传机制,从丢包处到最新的所有数据包进行传输,重传数据量大。据调研数据显示,当丢包率超过 10-5,RoCE 网络吞吐出现急剧下降。此外,传统拥塞控制采用基于队列的 PFC 反压机制,以保证业务无损,但PFC是基于端口进行反压,即使能 PFC 队列的端口流量都会受影响。针对这些问题,业界均在探索有效的拥塞管理技术手段来解决。

针对流量负载不均衡问题,流级负载均衡逐步向包级负载均衡演进,细化颗粒度提升网络吞吐率。流级负载均衡通过转控分离的方式实现,训练前先基于控制面规划好流量路径,训练时根据规划好的路径进行流量转发;控制面实时感知大模型训练业务情况,自动调整、优化流量路径,相比传统ECMP 流负载均衡技术,网络有效吞吐 40%提升。此外,随着算网协同技术完善,负载均衡技术未来将从流级进一步向包级技术演进。包级负载均衡是端侧(即服务器)将业务流量分割成多个大小相当的小包后发出,以数据包的颗粒度在网络中均衡转发,有望将网络负载提升90%以上。

值得一提的是,使用包级负载均衡技术,需要解决报文在网络中乱序的问题。当接收方接收到的报文顺序与发送方发送的报文顺序不一致,会造成业务中断。目前解决报文乱序问题有两种方案,一种是在端侧进行报文排序,此方案对交换机的要求比较低,仅需支持报文分片和流控机制;另外一种是在网络侧进行报文排序,此方案需要交换机支持报文分片和流控,以及支持报文重组。报文重组目前受网络侧实现及应用侧限制,还未规模应用。

针对拥塞影响范围大问题,使用端网协同的拥塞控制技术,精准控制避免拥塞。在大模型智算网训练过程中,当多节点向单节点传输数据时,瞬态拥塞不可避免。针对此问题,需为训练业务流量规划优先等级队列,并使能网络流控PFC 反压进行拥塞控制。同时,要避免 PFC 反压导致源端网络设备拥塞问题,防止相关队列中后续数据包无法转发,导致业务中断。使用端网协同的拥塞控制技术,可将网络拥塞情况向源端通告,端侧提前降速以避免拥塞发生,此技术关键是控制算法。

一是基于 DCQCN 的静态控制算法:使用ECN 静态水线(静态配置),当大模型训练流量经过设备队列超过ECN 水线时,即会触发拥塞通知给源端进行降速,由此进行拥塞避免。该技术是RoCEv2 网络标准的拥塞控制技术。

二是基于 ECN 的动态控制算法:使用动态算法如AIECN技术自动调整 ECN 阈值和参数,可简化控制算法部署难度。动态ECN 技术需要作为“拥塞点”的网络设备支持,目前国内主流厂商已普遍满足。

三是基于零队列拥塞控制技术的拥塞控制算法:零队列拥塞控制技术,主动计算网络空闲带宽。各端侧发送数据窗口请求,网络设备根据端口空闲情况分配增量窗口返回给端侧,从而提高无阻塞网络的吞吐,进一步提升大模型训练效率。该技术需要交换机、网卡配合实现,目前还未规模应用。

(三)高可维网络增强算力可用性

使用 AI 大模型训练体系化网络运维架构,可有效支撑AI训练任务开展,运维体系如图 6 所示。AI 训练系统规模大,上下游系统庞杂,保持任务长时间不中断对于大模型训练十分重要。大模型智算网络作为算力运转的关键环节,其稳定性提升及训练性能劣化后能及时故障处置、有效自证是重要的业务诉求。因此,网络运维需与 AI 集群层协同,且网络自身亦需具备智能化的能力。

一是网络风险预测能力:大模型智算网光纤、光模块使用量大。例如构建万卡集群训练网,需2.5 万个光模块、1万条光链路,管理对象繁多、故障风险高。因此网络需具备光模块训前风险预测能力,以提前排除风险隐患,提升训练系统的稳定性。

二是网络可观测能力:大模型训练流量具有突发性,易出现流量采集不准。网络需通过 Telemetry 技术获取细粒度的业务指标,包括流吞吐、丢包、PFC 反压帧、PFC 反压时长、ECN标记、队列缓存使用率、关键告警等信息,建立有效可视的大模型智算网运维可视系统。

三是网络故障自动修复能力:大模型智算网规模大、故障排查面广,人工处理及业务恢复困难。网络硬件需具备原生自修复能力,例如光模块多 lane 自动降速,芯片故障感知、快切恢复等功能;并通过提前搭建容错服务器及网络设备,进行故障设备快速替换,实现故障快速处置和一键修复能力。

四是故障跨层诊断能力:大模型集群通信类故障主要包括训练任务无法拉起、训练任务异常中断和训练任务性能下降。训练平台、集合通信算子、端(服务器&AI 芯片)、网(路由交换)串行分析排查周期长、定位效率低。因此需构建面向训练任务的一体化故障诊断平台,可跨层获取本层故障定位及有效自证所需数据,实现快速定界定障。

五是 AI 智能运维能力:学术界提出将AI 技术应用在网络运维新模式,即网络大模型。其核心方向是通过建立分布式网络性能框架,为每个监控对象建立丰富的注释与指标,再结合端到端的检测值,通过模型算法来推断故障组件。该技术为未来构建高精度检测分析,高效率故障闭环,以及风险预测、提前规避的运维系统建立奠定基础。

(四)高安全网络保障算力安全

金融行业智算应用关乎金融数字资产安全、生产系统安全。在大模型建设中,需网络与安全建设并举,以确保智算中心安全合规性。AI 大模型训练应用场景日益多元化,将面临算力和数据开放,同时也面临核心资产安全风险加大。

通过对如上典型场景及业务流分析,训练场景中模型样本即数据,以及算力均属于高价值核心资产,数据被泄露、算力被盗用或破坏,将是 AI 大模型场景面临的两大关键威胁。因此,构建零信任连接、网存联动防数据泄漏、网算联动防入侵的体系化安全架构,是打造高安全 AI 大模型智算网的关键。

一是基于零信任连接,为模型拥有者及使用者提供安全接入。通过采用零信任终端接入,基于xSEC 抗量子加密网络连接,结合零信任管理平台和态势感知平台进行威胁识别、分析、阻断,以构建零信任安全连接,保障 AI 大模型平台的用户接入安全。

二是基于网存联动数据标识及加密,防止数据泄漏及窃取。通过存储为敏感数据打标签,联动安全火墙基于标签进行安全策略控制,防止核心数据泄露;以及通过对数据进行租户级加密,保障多租户的训练数据在上传-存储-读取过程端到端防泄漏、防窃取。

三是基于网算联动检测、隔离及阻断,防止安全入侵。通过端侧(计算)内生硬件辅助检测识别恶意软件、未知威胁等,联动网络进行安全隔离、边界防护及阻断、横向扩散阻断等措施;以及通过端侧(计算)内生算力异常检测,结合外网防火墙入口流量检测,实现精准安全检测及联动处置闭环。

更多行业研究分析请参考思瀚产业研究院官网,同时思瀚产业研究院亦提供行研报告、可研报告(立项审批备案、银行贷款、投资决策、集团上会)、产业规划、园区规划、商业计划书(股权融资、招商合资、内部决策)、专项调研、建筑设计、境外投资报告等相关咨询服务方案。

免责声明:
1.本站部分文章为转载,其目的在于传播更多信息,我们不对其准确性、完整性、及时性、有效性和适用性等任何的陈述和保证。本文仅代表作者本人观点,并不代表本网赞同其观点和对其真实性负责。
2.思瀚研究院一贯高度重视知识产权保护并遵守中国各项知识产权法律。如涉及文章内容、版权等问题,我们将及时沟通与处理。