铸云 AI

供应商路由

通过路由策略优化模型选择,提升系统稳定性与成本效率

路由策略说明

通过 provider.routing 配置项指定路由策略,系统会根据预设策略自动选择最优供应商

策略类型

策略说明适用场景
priority按优先级顺序(默认)稳定性优先
cost成本最低优先批量处理、成本敏感
latency延迟最低优先实时对话、用户交互
balanced负载均衡高并发场景

使用示例

Python

from openai import OpenAI

client = OpenAI(
    base_url="https://api.mintcloud.ai/v1",
    api_key="<your MINTCLOUD_API_KEY>"
)

response = client.chat.completions.create(
    model="openai/gpt-4o",
    messages=[{"role": "user", "content": "Hello"}],
    extra_body={
        "provider": {
            "routing": "cost"
        }
    }
)

print(response.choices[0].message.content)

TypeScript

import OpenAI from "openai"

const client = new OpenAI({
  baseURL: "https://api.mintcloud.ai/v1",
  apiKey: process.env.MINTCLOUD_API_KEY,
})

async function main() {
  const response = await client.chat.completions.create({
    model: "openai/gpt-4o",
    messages: [{ role: "user", content: "Hello" }],
    extra_body: {
      provider: {
        routing: "cost"
      }
    }
  })
  console.log(response.choices[0].message.content)
}

main()

策略详解

priority优先级策略

按预设的供应商优先级顺序进行选择,当高优先级供应商不可用时自动切换到下一级。适合对稳定性要求较高的生产环境。

cost成本策略

自动选择当前成本最低的供应商。支持按 Token 价格、请求费用等维度进行成本优化,适合大规模批量处理场景。

latency延迟策略

根据实时延迟数据选择响应最快的供应商。通过持续监控各供应商的响应时间,动态选择最优路径,确保用户体验。

balanced负载均衡策略

在多个供应商之间均匀分配请求,避免单点过载。结合健康检查和可用性监控,确保系统整体高可用。

最佳实践

  • 生产环境推荐使用 priority — 确保系统稳定性和可预测性,由平台保证供应商质量
  • 批量处理使用 cost — 成本敏感型任务可显著降低开支,建议配合预算告警使用
  • 实时交互使用 latency — 用户对话场景优先保障响应速度,减少等待时间
  • 高并发场景使用 balanced — 配合自动扩缩容,应对流量高峰