供应商路由
通过路由策略优化模型选择,提升系统稳定性与成本效率
路由策略说明
通过 provider.routing 配置项指定路由策略,系统会根据预设策略自动选择最优供应商
策略类型
| 策略 | 说明 | 适用场景 |
|---|---|---|
| priority | 按优先级顺序(默认) | 稳定性优先 |
| cost | 成本最低优先 | 批量处理、成本敏感 |
| latency | 延迟最低优先 | 实时对话、用户交互 |
| balanced | 负载均衡 | 高并发场景 |
使用示例
Python
from openai import OpenAI
client = OpenAI(
base_url="https://api.mintcloud.ai/v1",
api_key="<your MINTCLOUD_API_KEY>"
)
response = client.chat.completions.create(
model="openai/gpt-4o",
messages=[{"role": "user", "content": "Hello"}],
extra_body={
"provider": {
"routing": "cost"
}
}
)
print(response.choices[0].message.content)TypeScript
import OpenAI from "openai"
const client = new OpenAI({
baseURL: "https://api.mintcloud.ai/v1",
apiKey: process.env.MINTCLOUD_API_KEY,
})
async function main() {
const response = await client.chat.completions.create({
model: "openai/gpt-4o",
messages: [{ role: "user", content: "Hello" }],
extra_body: {
provider: {
routing: "cost"
}
}
})
console.log(response.choices[0].message.content)
}
main()策略详解
priority优先级策略
按预设的供应商优先级顺序进行选择,当高优先级供应商不可用时自动切换到下一级。适合对稳定性要求较高的生产环境。
cost成本策略
自动选择当前成本最低的供应商。支持按 Token 价格、请求费用等维度进行成本优化,适合大规模批量处理场景。
latency延迟策略
根据实时延迟数据选择响应最快的供应商。通过持续监控各供应商的响应时间,动态选择最优路径,确保用户体验。
balanced负载均衡策略
在多个供应商之间均匀分配请求,避免单点过载。结合健康检查和可用性监控,确保系统整体高可用。
最佳实践
- 生产环境推荐使用 priority — 确保系统稳定性和可预测性,由平台保证供应商质量
- 批量处理使用 cost — 成本敏感型任务可显著降低开支,建议配合预算告警使用
- 实时交互使用 latency — 用户对话场景优先保障响应速度,减少等待时间
- 高并发场景使用 balanced — 配合自动扩缩容,应对流量高峰