提示缓存

复用常见上下文，减少 token 消耗，降低模型调用成本

什么是提示缓存

提示缓存（Prompt Caching）是一种优化技术，允许将常见的系统提示或上下文信息缓存起来，在后续请求中自动复用。这避免了每次请求都重新传输相同的上下文内容，从而显著减少 token 消耗和响应延迟。

支持的模型

Claude Sonnet 4.5Claude Opus 4.0Claude Haiku

更多支持缓存的模型正在陆续添加中，请关注模型目录更新。

使用方式

Anthropic 协议原生支持

Mint Cloud AI 的 Anthropic 兼容接口原生支持提示缓存功能。只需按照标准方式发送请求，系统会自动检测可缓存的上下文内容并进行优化。

Python 示例

from anthropic import Anthropic

client = Anthropic(
    base_url="https://api.mintcloud.ai/anthropic/v1",
    api_key="<your MINTCLOUD_API_KEY>"
)

message = client.messages.create(
    model="anthropic/claude-sonnet-4-5",
    max_tokens=1024,
    messages=[
        {"role": "user", "content": "系统提示: 你是一个助手"},
        {"role": "user", "content": "用户问题..."}
    ]
)
# 系统提示会被缓存，后续请求复用
print(message.content[0].text)

缓存计费

折扣缓存命中享折扣价格

当请求命中缓存时，系统会按照缓存计费标准收取费用，通常比正常请求低 50-90%，具体折扣取决于模型和缓存策略。

缓存有效期

5 分钟短期缓存

1 小时长期缓存

缓存有效期根据模型和请求模式自动选择。频繁访问的上下文会使用更长的缓存有效期。

适用场景

对话机器人

固定系统提示的客服机器人，可以显著降低运营成本

代码助手

编程助手的系统提示和代码库上下文可被缓存复用

文档问答

文档解析的系统提示固定，问答上下文可高效复用

下一步

供应商路由 — 了解更多高级路由功能
故障回退 — 确保服务高可用
模型目录 — 查看所有支持的模型