结论
- 不能只看 headline token price;cache 命中率和时间规则会改变账单。
- 价格可能变化,每个预算假设都要记录日期和来源。
- 对 Agent 和代码工具,重试可能吃掉便宜 token 的优势。
- 用预算告警和 fallback 防止价格或质量变化影响生产毛利。
怎么做
- 打开官方 DeepSeek pricing,记录当前 input、output、cache-hit 和 off-peak 规则。
- 估算 workload 是否有重复前缀、可复用上下文或可调度任务。
- 用 cache-friendly 和 cache-cold prompt 各跑 benchmark。
- 计算 accepted-result 成本,包含重试、无效 JSON、测试失败和限速恢复。
- 把 DeepSeek 放在配置或网关后,并设置 Qwen/GLM/强模型 fallback。
推荐路径对比
| 平台 | 免费/额度 | 适合 |
|---|---|---|
| DeepSeek | 以当前 console/pricing 为准 | 低价推理、代码、cache-aware workload |
| 通义千问 | 注册额度变化 | 长上下文和中国大陆友好 fallback |
| 智谱 GLM | 注册 tokens 变化 | DeepSeek 路线变化时国产兜底 |
| 成本计算器 | 免费工具 | 估算月度 workload 成本 |
| OpenLLMAPI | 体验额度变化 | 预算日志、fallback、路线级成本归因 |
自有平台承接
生产前算清 DeepSeek 节省
估算 cache/off-peak 节省,再加 fallback 和花费日志,避免重试或价格变化造成意外。
FAQ
什么是 cache-hit pricing?
当 provider 识别到可复用的重复 prompt 前缀或缓存内容时,对缓存输入给折扣。具体规则必须以官方文档为准。
应该把任务排到错峰吗?
只有官方规则仍适用且不影响用户体验时才适合。批处理比聊天 UX 更适合。
DeepSeek 比本地部署便宜吗?
中低 workload 往往是,但要比较 accepted-result 成本、隐私需求、延迟和运维复杂度。
多久查一次价格?
上线前、月度预算复盘,以及社区出现价格变化讨论时都要查。