结论
- 客户级 LLM 成本是毛利指标,不只是工程指标。
- 要记录功能、路线、fallback 和 outcome;单看 token 数无法解释利润。
- 重试、无效 JSON、失败 Agent 循环和 fallback 调用都要归到同一客户/workspace。
- 预算告警应该在客户、套餐或功能变亏前触发。
怎么做
- 定义 usage event schema:customer、workspace、user、feature、task id、provider、route、model、tokens、retries、latency、status、outcome、fallback route。
- 把 provider 价格统一到内部成本表,并在价格、cache/off-peak 规则变化时刷新。
- 计算每成功任务成本、每活跃客户成本、按套餐 AI 毛利和高风险 workspace。
- 在预期套餐毛利 50/80% 触发软告警,对异常循环或滥用设置硬上限。
- 把 fallback 和 retry 成本归到原始客户任务,而不是放进泛化基础设施成本。
- 用 OpenLLMAPI 或共享服务端 middleware,让所有 provider 调用输出同一日志格式和预算策略。
推荐路径对比
| 平台 | 免费/额度 | 适合 |
|---|---|---|
| 应用 middleware | 自建 | 单 provider 且有自定义计费逻辑 |
| OpenLLMAPI | 体验额度变化 | 多 provider 日志、路由、fallback trace 和客户级预算 |
| LLM 成本计算器 | 免费工具 | 上线前估算套餐毛利 |
| Provider dashboard | 通常自带 | 账号级花费,不适合客户或功能毛利 |
| 价格数据导出 | 免费数据 | 刷新内部成本表和 provider 对比 |
自有平台承接
让每次 LLM 调用都可归因
用一个兼容 endpoint 统一客户级日志、fallback trace、预算上限,并携带 SaaS 毛利归因 UTM 注册。
FAQ
哪些字段必须记录?
至少记录 customer/workspace、feature、route、provider、model、tokens、单价、retries、fallback route、latency、status 和 outcome。
Fallback 成本算到客户吗?
要算。如果 fallback 完成了这个客户任务,就归到同一 task,并记录原路线和最终路线用于调优。
Streaming 响应怎么记录?
请求开始时写 usage event,stream 结束或报错时更新 token、状态、延迟和最终成本。
Provider dashboard 能做客户归因吗?
通常不能。它们能看账号花费,但看不到按客户、workspace、套餐、功能或 accepted outcome 的 SaaS 毛利。
创始人每周该看什么报表?
AI 成本最高客户、按功能成功任务成本、各 route fallback 率、套餐毛利、接近预算上限的 workspace。