一、产业背景:AI 推理成本高企与 HBM 瓶颈催生“以存代算”新范式
当前,人工智能技术的蓬勃发展推动大模型训练走向规模化,但真正创造持续商业价值的核心环节在于推理过程。观察者网表示,AI 推理算力需求正迅速超越训练,成为成本与性能的关键瓶颈。
在这一背景下,键值缓存(KV Cache)技术应运而生,成为提升推理效率的关键机制。其原理是将已生成 Token 对应的 Key(表征历史输入特征)和 Value(用于输出计算的参考信息)临时存储起来,使模型在生成新 Token 时可直接复用缓存结果,避免重复计算,从而显著降低计算负载、提升响应速度。然而,KV Cache 的高度依赖也带来了新的问题:它需占用大量 GPU 显存资源,尤其是价格昂贵的高带宽内存(HBM)。
随着生成文本长度与对话轮次的增加,缓存数据量急剧膨胀,极易导致 HBM 与 DRAM 资源耗尽。更为关键的是,面对大模型 PB 级的天量参数和持续增长的序列长度,传统推理架构对 HBM 的过度依赖已日益成为系统扩展的瓶颈。
尽管 HBM 在性能上表现卓越,但其高昂的成本与有限的供应极大地限制了大规模部署的经济性。另一方面,虽然 SSD 具备成本低、容量大的优势,但其传输速率与延迟尚无法满足高频实时推理的要求。正是在性能、容量与成本构成的“不可能三角”困境中,“以存代算”作为一种突破性的技术范式逐渐走向成熟。
以存代算 CachedAttention 用 GPU 外部低成本的存储介质( HBM+DRAM+SSD)来缓存历史对话的 KV Cache,然后在后面轮次对话到来时,重新加载缓存的历史对话 KVCache 并重用,那么在新一轮对话中只用 Prefilling 阶段的新 Token。
二、技术背景:KV Cache 重复计算成推理效率关键制约
Transformer 算法是生成式 AI 模型的基石。Transformer 模型由多个 Transformer 层组成,每层都包含两个模块:自注意力(Self-Attention)和前馈网络(FFN)。对于输入的 Token,每层都会对每个 Token 计算生成 Query(Q)、Key(K)和 Value(V)。Key(K)和 Value(V)通常缓存在 GPU 中,称为 KV Cache(KV 缓存),他们占用空间很大。
在LLM的推理过程中,包含两个阶段:预填充阶段(Prefilling Phase)和解码阶段(DecodingPhase)。预填充阶段并行地处理所有输入 Prompt 的 Token,生成 KV Cache。解码阶段利用预填充阶段生成的 KV Cache,迭代地生成输出 Token,每次迭代输出一个 Token。
让人类参与多轮对话是 LLM 的一个基本特征,多轮对话会话由一系列连续对话组成。根据对开源大模型对话数据集 ShareGPT 的统计(ShareGPT 是通过收集不同人与 ChatGPT的真实对话形成的数据集),发现 ShareGPT 中有超过 73% 的对话都是多轮的。
由于在多个对话轮次中重复计算 KV Cache,因此 LLM 服务引擎在执行多轮对话中效率低下,产生高昂成本。 在单轮对话中,LLM 将 KV Cache 存储在 GPU 上有限的高带宽内存 (HBM)中。当对话结束时,LLM 会丢弃与该会话关联的 KV Cache,以释放 HBM 中的空间供其他活动会话使用。当用户在对话中发送下一条消息时,LLM 会再次计算整个 KVCache,这导致重复计算相同的 KV Cache 浪费宝贵的 GPU 计算资源。
在第一轮对话中,LLM 生成 a1 的 q1 KV Cache。完成第 1 轮后,LLM会丢弃 KV Cache 以回收 HBM 空间。在第二、三轮对话中,LLM 重新生成 a1 的 q1 KVCache。随着对话轮数的增加,新一轮对话的输入 Token 中历史 Token 的比例急剧增加,到后面的轮次中历史 Token 的比例会超过 99%。
三、技术机制:以存储换计算,实现 KV Cache 持久化与多级缓存
以存代算 CachedAttention 是一种新的 Attention 技术,用 GPU 外部低成本的存储介质( AttentionStore )来缓存历史对话的 KV Cache,然后在后面轮次对话到来时,重新加载缓存的历史对话 KV Cache 并重用,那么在新一轮对话中只用 Prefilling 阶段的新Token。
具体而言,当关联的对话会话处于非活动状态时,CachedAttention 会将 KV Cache 保存在名为 AttentionStore 的 KV Cache 系统中,而不是像传统注意力机制那样将其删除。如果将来激活了同一对话,则会从 AttentionStore 获取其 KV Cache 并重复用于推理。通过这样做,CachedAttention 仅执行部分 prefilling 阶段的 tokens,即在新的对话回合中输入的新 tokens,而不是预填充所有的 tokens。如图 6(b),在执行第三轮的推理时, 使用q1 q2 a1 a2 的 KV Cache,只需要输入 q3 即可。CachedAttention 有效消除了历史 token的重复计算,从而降低了 prefilling 成本。
与 CachedAttention 相互配合的是一个涉及 HBM+DRAM+SSD 的多级 KV Cache 缓存系统,他们三者的作用及关系如下:
1. 高带宽内存(HBM)
• 核心定位:GPU 本地高速存储,用于实时支撑 LLM 推理计算,是 KV 缓存访问的 “第一梯队”。
• 关键作用:
存储当前活跃会话的 KV Cache,直接供 GPU 的自注意力计算(Attention)和前馈网络(FFN)调用,避免计算阻塞。
预留读写缓冲区(read buffer/write buffer):读缓冲区用于提前加载 DRAM 中的 KV缓存,与 GPU 计算重叠;写缓冲区用于暂存未完成保存的 KV 缓存,避免阻塞下一个推理任务。
2. 主机内存(DRAM)
核心定位:HBM 与 SSD 之间的 “中间缓存层”,平衡存储容量与访问速度。
关键作用:
存储近期可能被访问的非活跃会话 KV Cache,作为 HBM 的扩展,避免频繁从低速SSD 加载。
承接 HBM 的异步 KV 缓存写入:在推理计算(如解码阶段)同时,将 HBM 中已完成计算的 KV 缓存异步保存到 DRAM,减少 HBM 占用。
作为预取目标:通过调度感知预取(scheduler-aware fetching),将 SSD 中即将被访问的 KV 缓存提前加载到 DRAM,确保 GPU 访问时能命中高速存储。
3. 固态硬盘(SSD)
核心定位:海量 KV 缓存的 “长期存储池”,解决 HBM 和 DRAM 容量不足的问题。
关键作用:
存储海量非活跃会话的 KV Cache,提供 TB 级容量,避免因 HBM/DRAM 容量限制导致 KV 缓存被丢弃。
配合调度感知驱逐(scheduler-aware eviction):当 DRAM 空间不足时,将长期不被访问的 KV Cache 从 DRAM 迁移到 SSD;当 SSD 空间不足时,驱逐最不可能被访问的会话 KV Cache。
大量的实验结果表明,CachedAttention 将首 Token 时延(TTFT)显著缩短了 87%,并提升了 Prefill 阶段 7.8 倍的吞吐量,从而将端到端推理成本降低了 70%。
更多行业研究分析请参考思瀚产业研究院官网,同时思瀚产业研究院亦提供行研报告、可研报告(立项审批备案、银行贷款、投资决策、集团上会)、产业规划、园区规划、商业计划书(股权融资、招商合资、内部决策)、专项调研、建筑设计、境外投资报告等相关咨询服务方案。