浅析 KV 缓存：为什么大模型不需要重复阅读 Prompt？

KV 缓存（#KV-cache）是大模型（LLM）推理中最关键的优化技术，也是实现实时对话交互的幕后功臣。本文将深入探讨它的工作原理及其不可替代的重要性。

大模型的文本生成是一个自回归（Autoregressive）的过程。LLM 每次只能产生一个 Token：输出一个 Token，将其拼接至输入，然后重新运行整个模型以生成下一个。在每个注意力层内部，每个 Token 都会转化为一个 Query（查询）、Key（键）和 Value（值）。为了产生最新的 Token，其 Query 需要与之前所有 Token 的 Keys 进行评分计算，并根据这些权重融合它们的 Values。因此，生成第 t 个 Token 必须依赖前 1 到 t 个 Token 的 K 和 V 值。

如果没有缓存，传统的“天真”方法会导致二次方复杂度（Quadratic Complexity）。每一步生成都需要重新编码整个前缀，以重新构建前 1 到 t 步的 K/V。第一步处理 1 个 Token，第二步处理 2 个，第 N 步则需要处理 N 个。总计算量约为 1+2+...+N = N(N+1)/2，即 O(N²)。尽管先前 Token 的 K/V 永远不会改变，它依然在每一步被重复计算，造成了极大的算力浪费。

核心痛点在于：因果掩码（Causal Masking）机制确保了一个 Token 只能将注意力投向它之前的 Token。因此，在末尾添加新 Token 绝不会改变先前 Token 的 Key 和 Value。它们是恒定不变的。既然如此，直接将每个 Token 首次生成的 K/V 存储起来，就能实现线性生成（Linear Generation）。此时，每一步只需计算单个新 Token 的 K/V 并追加至缓存，然后让当前 Query 与整个缓存进行注意力计算。单步工作量降为常数，总复杂度从 O(N²) 降到了 O(N)。

这一机制将大模型推理清晰地划分为两个阶段：Prefill（首字延迟阶段）和 Decode（解码生成阶段）。在 Prefill 阶段，模型一次性并行摄入整个 Prompt 并填充缓存，这是计算密集型的，也是为什么长 Prompt 的首字输出（Time to First Token）会有延迟的原因；而在 Decode 阶段，模型逐个生成输出 Token，每次只进行轻量级的缓存追加。这也是为什么“首字延迟”与“单字生成延迟”是两个完全不同的技术指标。

然而，长上下文的代价是高昂的显存占用。KV 缓存必须存储每个 Token、每个层、每个注意力头的 K 和 V。其大小随上下文长度呈线性增长，这正是 128k 超长上下文极其昂贵的根本原因：缓存会吃掉数 GB 甚至数十 GB 的 GPU 显存，直接限制了单张 GPU 的并发用户数。为了驯服这个显存怪兽，诸如 PagedAttention (#vLLM)、分组查询注意力（GQA）、量化缓存（Quantized Caches）以及 Prompt 缓存（Prompt Caching）等技术应运而生。

AgentUpdate 深度解析

KV-cache 的优化水平直接决定了 AI Agent（智能体）的实用化边界。在 Agent 场景中，智能体需要经历高频的“感知-决策-行动”循环，并频繁与外部工具交互。这意味着长 Prompt、多轮对话和长历史记忆成为了常态。如果缺乏高效的 KV 缓存管理，Agent 的多轮交互将面临灾难性的高延迟与高昂的 Token 成本。类似 vLLM 的 PagedAttention 技术以及近年兴起的 Prompt Caching，能够让 Agent 在多次调用中共享系统 Prompt 和工具定义，极大降低了首字延迟（TTFT）。长远来看，KV-cache 技术的迭代（如硬件感知的缓存压缩和层次化存储）不仅是工程优化，更是支撑 Agent 走向全天候自主运行、低延迟复杂推理的核心底座，其重要性不亚于模型架构本身。

浅析 KV 缓存：为什么大模型不需要重复阅读 Prompt？

推荐阅读

传Meta计划推出自研云业务，变现巨额AI算力基础设施

Anthropic增新防护堵住漏洞，Claude Fable 5重获出口许可

Om AI推出全球首个端侧流式多模态模型VLX，重塑具身智能