结论
- Agent 成本通常来自循环、重试、长上下文、工具调用和无声 fallback 风暴。
- 预算执行必须在代码、middleware 或网关策略里;只靠 dashboard 告警太晚。
- 便宜主模型只有在重试后的成功任务成本仍低时才真的便宜。
- 生产 Agent 在定时/自主运行前,需要路由日志、客户归因和硬性月上限。
怎么做
- 为每次 Agent run 设置最大迭代、最大时长、输入/输出 token、重试次数和工具调用上限。
- 昂贵外部动作、联网任务、批处理和写操作默认拒绝或要求确认。
- 记录 route、provider、model、tokens、延迟、重试、验证结果、用户、workspace、功能和最终 outcome。
- 设置单次、每日、workspace 和全局预算;50/80% 软告警,循环异常硬停止。
- 简单任务走 DeepSeek/Qwen/GLM 等便宜主路线;只有验证失败、JSON/tool-call 错误或高复杂任务才升级。
- 多个 Agent 或队友共用时,用 OpenLLMAPI 统一兼容 endpoint、日志、fallback 和预算。
推荐路径对比
| 平台 | 免费/额度 | 适合 |
|---|---|---|
| 代码硬限制 | 免费 | 阻止无限循环、超长 prompt 和重试风暴 |
| LLM 成本计算器 | 免费工具 | 上线前估算 Agent 月花费 |
| DeepSeek/Qwen/GLM | 额度和价格变化 | 日常代码与自动化循环的便宜主路线 |
| OpenLLMAPI | 体验额度变化 | Agent 统一 key、网关级路由、fallback、日志和预算 |
| 强兜底模型 | 通常付费 | 困难任务恢复,避免便宜模型反复失败 |
自有平台承接
把 Agent 预算放进路由,而不是表格
用一个 OpenAI-compatible endpoint 给 Agent run 统一花费日志、重试感知 fallback、workspace 预算,并携带成本控制 UTM 注册。
FAQ
第一个预算控制应该加什么?
先加硬性 max steps、最大运行时长和 max output tokens。这三项能立刻阻止最常见失控循环。
便宜模型对 Agent 一定更省吗?
不一定。如果导致重试、失败 patch、无效 JSON 或额外 fallback,成功任务成本可能高于强模型。
什么时候触发 fallback?
基于明确失败信号:验证失败、测试失败、JSON/tool call 无效、超时、限速或置信度低于阈值。
预算应该在哪里执行?
在应用路由、worker 或网关策略里执行。Provider dashboard 适合审计,但不足以做实时控制。
Agent 成本日志至少记录什么?
至少记录 customer/workspace、agent 名、task id、provider、model、route、输入/输出 tokens、重试、延迟、状态、验证结果和最终成本。