提示缓存
复用常见上下文,减少 token 消耗,降低模型调用成本
什么是提示缓存
提示缓存(Prompt Caching)是一种优化技术,允许将常见的系统提示或上下文信息缓存起来, 在后续请求中自动复用。这避免了每次请求都重新传输相同的上下文内容,从而显著减少 token 消耗和响应延迟。
支持的模型
Claude Sonnet 4.5Claude Opus 4.0Claude Haiku
更多支持缓存的模型正在陆续添加中,请关注模型目录更新。
使用方式
Anthropic 协议原生支持
Mint Cloud AI 的 Anthropic 兼容接口原生支持提示缓存功能。只需按照标准方式发送请求, 系统会自动检测可缓存的上下文内容并进行优化。
Python 示例
from anthropic import Anthropic
client = Anthropic(
base_url="https://api.mintcloud.ai/anthropic/v1",
api_key="<your MINTCLOUD_API_KEY>"
)
message = client.messages.create(
model="anthropic/claude-sonnet-4-5",
max_tokens=1024,
messages=[
{"role": "user", "content": "系统提示: 你是一个助手"},
{"role": "user", "content": "用户问题..."}
]
)
# 系统提示会被缓存,后续请求复用
print(message.content[0].text)缓存计费
折扣缓存命中享折扣价格
当请求命中缓存时,系统会按照缓存计费标准收取费用,通常比正常请求低 50-90%, 具体折扣取决于模型和缓存策略。
缓存有效期
5 分钟短期缓存
1 小时长期缓存
缓存有效期根据模型和请求模式自动选择。频繁访问的上下文会使用更长的缓存有效期。
适用场景
对话机器人
固定系统提示的客服机器人,可以显著降低运营成本
代码助手
编程助手的系统提示和代码库上下文可被缓存复用
文档问答
文档解析的系统提示固定,问答上下文可高效复用