以存代算元年开启，打破 HBM 限制重构 AI 存储生态 - 产业投资 - 行业新闻

以存代算元年开启，打破 HBM 限制重构 AI 存储生态
思瀚产业研究院 2025-09-29

一、产业背景：AI 推理成本高企与 HBM 瓶颈催生“以存代算”新范式

当前，人工智能技术的蓬勃发展推动大模型训练走向规模化，但真正创造持续商业价值的核心环节在于推理过程。观察者网表示，AI 推理算力需求正迅速超越训练，成为成本与性能的关键瓶颈。

在这一背景下，键值缓存（KV Cache）技术应运而生，成为提升推理效率的关键机制。其原理是将已生成 Token 对应的 Key（表征历史输入特征）和 Value（用于输出计算的参考信息）临时存储起来，使模型在生成新 Token 时可直接复用缓存结果，避免重复计算，从而显著降低计算负载、提升响应速度。然而，KV Cache 的高度依赖也带来了新的问题：它需占用大量 GPU 显存资源，尤其是价格昂贵的高带宽内存（HBM）。

随着生成文本长度与对话轮次的增加，缓存数据量急剧膨胀，极易导致 HBM 与 DRAM 资源耗尽。更为关键的是，面对大模型 PB 级的天量参数和持续增长的序列长度，传统推理架构对 HBM 的过度依赖已日益成为系统扩展的瓶颈。

尽管 HBM 在性能上表现卓越，但其高昂的成本与有限的供应极大地限制了大规模部署的经济性。另一方面，虽然 SSD 具备成本低、容量大的优势，但其传输速率与延迟尚无法满足高频实时推理的要求。正是在性能、容量与成本构成的“不可能三角”困境中，“以存代算”作为一种突破性的技术范式逐渐走向成熟。

以存代算 CachedAttention 用 GPU 外部低成本的存储介质（ HBM+DRAM+SSD）来缓存历史对话的 KV Cache，然后在后面轮次对话到来时，重新加载缓存的历史对话 KVCache 并重用，那么在新一轮对话中只用 Prefilling 阶段的新 Token。

二、技术背景：KV Cache 重复计算成推理效率关键制约

Transformer 算法是生成式 AI 模型的基石。Transformer 模型由多个 Transformer 层组成，每层都包含两个模块：自注意力（Self-Attention）和前馈网络（FFN）。对于输入的 Token，每层都会对每个 Token 计算生成 Query（Q）、Key（K）和 Value（V）。Key（K）和 Value（V）通常缓存在 GPU 中，称为 KV Cache（KV 缓存），他们占用空间很大。

在LLM的推理过程中，包含两个阶段：预填充阶段（Prefilling Phase）和解码阶段（DecodingPhase）。预填充阶段并行地处理所有输入 Prompt 的 Token，生成 KV Cache。解码阶段利用预填充阶段生成的 KV Cache，迭代地生成输出 Token，每次迭代输出一个 Token。

让人类参与多轮对话是 LLM 的一个基本特征，多轮对话会话由一系列连续对话组成。根据对开源大模型对话数据集 ShareGPT 的统计（ShareGPT 是通过收集不同人与 ChatGPT的真实对话形成的数据集），发现 ShareGPT 中有超过 73% 的对话都是多轮的。

由于在多个对话轮次中重复计算 KV Cache，因此 LLM 服务引擎在执行多轮对话中效率低下，产生高昂成本。在单轮对话中，LLM 将 KV Cache 存储在 GPU 上有限的高带宽内存（HBM）中。当对话结束时，LLM 会丢弃与该会话关联的 KV Cache，以释放 HBM 中的空间供其他活动会话使用。当用户在对话中发送下一条消息时，LLM 会再次计算整个 KVCache，这导致重复计算相同的 KV Cache 浪费宝贵的 GPU 计算资源。

在第一轮对话中，LLM 生成 a1 的 q1 KV Cache。完成第 1 轮后，LLM会丢弃 KV Cache 以回收 HBM 空间。在第二、三轮对话中，LLM 重新生成 a1 的 q1 KVCache。随着对话轮数的增加，新一轮对话的输入 Token 中历史 Token 的比例急剧增加，到后面的轮次中历史 Token 的比例会超过 99%。

三、技术机制：以存储换计算，实现 KV Cache 持久化与多级缓存

以存代算 CachedAttention 是一种新的 Attention 技术，用 GPU 外部低成本的存储介质（ AttentionStore ）来缓存历史对话的 KV Cache，然后在后面轮次对话到来时，重新加载缓存的历史对话 KV Cache 并重用，那么在新一轮对话中只用 Prefilling 阶段的新Token。

具体而言，当关联的对话会话处于非活动状态时，CachedAttention 会将 KV Cache 保存在名为 AttentionStore 的 KV Cache 系统中，而不是像传统注意力机制那样将其删除。如果将来激活了同一对话，则会从 AttentionStore 获取其 KV Cache 并重复用于推理。通过这样做，CachedAttention 仅执行部分 prefilling 阶段的 tokens，即在新的对话回合中输入的新 tokens，而不是预填充所有的 tokens。如图 6（b），在执行第三轮的推理时，使用q1 q2 a1 a2 的 KV Cache，只需要输入 q3 即可。CachedAttention 有效消除了历史 token的重复计算，从而降低了 prefilling 成本。

与 CachedAttention 相互配合的是一个涉及 HBM+DRAM+SSD 的多级 KV Cache 缓存系统，他们三者的作用及关系如下：

1. 高带宽内存（HBM）

• 核心定位：GPU 本地高速存储，用于实时支撑 LLM 推理计算，是 KV 缓存访问的 “第一梯队”。

• 关键作用：

存储当前活跃会话的 KV Cache，直接供 GPU 的自注意力计算（Attention）和前馈网络（FFN）调用，避免计算阻塞。

预留读写缓冲区（read buffer/write buffer）：读缓冲区用于提前加载 DRAM 中的 KV缓存，与 GPU 计算重叠；写缓冲区用于暂存未完成保存的 KV 缓存，避免阻塞下一个推理任务。

2. 主机内存（DRAM）

核心定位：HBM 与 SSD 之间的 “中间缓存层”，平衡存储容量与访问速度。

关键作用：

存储近期可能被访问的非活跃会话 KV Cache，作为 HBM 的扩展，避免频繁从低速SSD 加载。

承接 HBM 的异步 KV 缓存写入：在推理计算（如解码阶段）同时，将 HBM 中已完成计算的 KV 缓存异步保存到 DRAM，减少 HBM 占用。

作为预取目标：通过调度感知预取（scheduler-aware fetching），将 SSD 中即将被访问的 KV 缓存提前加载到 DRAM，确保 GPU 访问时能命中高速存储。

3. 固态硬盘（SSD）

核心定位：海量 KV 缓存的 “长期存储池”，解决 HBM 和 DRAM 容量不足的问题。

关键作用：

存储海量非活跃会话的 KV Cache，提供 TB 级容量，避免因 HBM/DRAM 容量限制导致 KV 缓存被丢弃。

配合调度感知驱逐（scheduler-aware eviction）：当 DRAM 空间不足时，将长期不被访问的 KV Cache 从 DRAM 迁移到 SSD；当 SSD 空间不足时，驱逐最不可能被访问的会话 KV Cache。

大量的实验结果表明，CachedAttention 将首 Token 时延（TTFT）显著缩短了 87%，并提升了 Prefill 阶段 7.8 倍的吞吐量，从而将端到端推理成本降低了 70%。

更多行业研究分析请参考思瀚产业研究院官网，同时思瀚产业研究院亦提供行研报告、可研报告（立项审批备案、银行贷款、投资决策、集团上会）、产业规划、园区规划、商业计划书（股权融资、招商合资、内部决策）、专项调研、建筑设计、境外投资报告等相关咨询服务方案。

免责声明：
1.本站部分文章为转载，其目的在于传播更多信息，我们不对其准确性、完整性、及时性、有效性和适用性等任何的陈述和保证。本文仅代表作者本人观点，并不代表本网赞同其观点和对其真实性负责。
2.思瀚研究院一贯高度重视知识产权保护并遵守中国各项知识产权法律。如涉及文章内容、版权等问题，我们将及时沟通与处理。