铸云 AI

提示缓存

复用常见上下文,减少 token 消耗,降低模型调用成本

什么是提示缓存

提示缓存(Prompt Caching)是一种优化技术,允许将常见的系统提示或上下文信息缓存起来, 在后续请求中自动复用。这避免了每次请求都重新传输相同的上下文内容,从而显著减少 token 消耗和响应延迟。

支持的模型

Claude Sonnet 4.5Claude Opus 4.0Claude Haiku

更多支持缓存的模型正在陆续添加中,请关注模型目录更新。

使用方式

Anthropic 协议原生支持

Mint Cloud AI 的 Anthropic 兼容接口原生支持提示缓存功能。只需按照标准方式发送请求, 系统会自动检测可缓存的上下文内容并进行优化。

Python 示例

from anthropic import Anthropic

client = Anthropic(
    base_url="https://api.mintcloud.ai/anthropic/v1",
    api_key="<your MINTCLOUD_API_KEY>"
)

message = client.messages.create(
    model="anthropic/claude-sonnet-4-5",
    max_tokens=1024,
    messages=[
        {"role": "user", "content": "系统提示: 你是一个助手"},
        {"role": "user", "content": "用户问题..."}
    ]
)
# 系统提示会被缓存,后续请求复用
print(message.content[0].text)

缓存计费

折扣缓存命中享折扣价格

当请求命中缓存时,系统会按照缓存计费标准收取费用,通常比正常请求低 50-90%, 具体折扣取决于模型和缓存策略。

缓存有效期

5 分钟短期缓存
1 小时长期缓存

缓存有效期根据模型和请求模式自动选择。频繁访问的上下文会使用更长的缓存有效期。

适用场景

对话机器人

固定系统提示的客服机器人,可以显著降低运营成本

代码助手

编程助手的系统提示和代码库上下文可被缓存复用

文档问答

文档解析的系统提示固定,问答上下文可高效复用

下一步