结论
- token 单价只是起点。
- 重试、JSON 错误、限速和宕机会让便宜模型变贵。
- 常规任务走便宜模型,失败时再用更强模型兜底。
- 先按用户、功能和 Agent run 记录成本,再优化 provider。
怎么做
- 定义成功标准:被接受答案、测试通过、JSON 有效或 workflow 完成。
- 用同一批任务测试两个低价 provider 和一个强兜底。
- 记录重试、无效输出、延迟和最终接受成本。
- 常规任务路由到最便宜且可靠的路线。
- 当 fallback 和成本归因比手写路由更重要时,用 OpenLLMAPI 或网关。
推荐路径对比
| 平台 | 免费/额度 | 适合 |
|---|---|---|
| DeepSeek | $5 注册 / 当前额度 | 低价推理和代码主路线 |
| 通义千问 | 注册额度随活动变化 | 中国大陆友好长上下文主路线/兜底 |
| 智谱 GLM | 注册 tokens 随活动变化 | 国产预算路线和兜底 |
| Groq | 开发者限额变化 | 快速开源模型重试和 smoke test |
| OpenLLMAPI | 体验额度随活动变化 | 路由、兜底、日志和预算归因 |
自有平台承接
按成功任务优化,而不是只看便宜 token
用一个 endpoint 路由便宜任务、失败兜底,并按 app、用户、功能或 Agent 归因成本。
FAQ
哪个 provider token 单价最低?
变化很快。DeepSeek 和开源模型平台常是低价基准,但上线前要看官方当前价格。
为什么 fallback 反而省钱?
fallback 可以避免弱路线反复重试。一次用更强模型成功,可能比五次便宜失败更省。
什么是成功任务成本?
总花费除以真正达到验收标准的任务数,包含重试、无效响应和人工返工。
一定要网关吗?
单一 provider 够用就不需要。需要兜底、日志、路由规则、多 provider key 或用户级预算时再用。