结论
- 按每个已解决工单成本计算,包含重试和转人工。
- 低价模型适合 FAQ、订单状态和分类流程,但要有护栏。
- 模糊投诉、退款、政策敏感和长上下文要用强 fallback。
- 规模化前按客户、workspace 和会话追踪成本。
怎么做
- 收集 30 个匿名客服问题,覆盖简单、中等、困难场景。
- 用两个低价 provider 和一个 fallback 模型跑同一批问题。
- 记录解决率、幻觉风险、转人工率、延迟和总 tokens。
- 制定路由:简单意图低价优先,低置信、退款、监管话题或政策敏感转 fallback。
- 需要统一 endpoint、会话日志和预算时,接 OpenLLMAPI。
推荐路径对比
| 平台 | 免费/额度 | 适合 |
|---|---|---|
| DeepSeek | 核验当前价格 | 低价推理客服 workflow |
| 通义千问 DashScope | 注册额度变化 | 中国大陆友好双语客服 bot |
| 智谱 GLM | 注册 tokens 变化 | 国产 fallback 和 GLM 实验 |
| 硅基流动 | 免费/开源路线变化 | 中国大陆直连多模型测试 |
| OpenLLMAPI | 体验额度变化 | 路由、成本归因和 fallback |
自有平台承接
追踪每次解决会话的客服成本
简单工单低价路由,困难问题自动 fallback,并把 AI 成本归因到客户;注册 CTA 会携带客服 chatbot 意图 UTM。
FAQ
客服 bot 哪个 provider 最便宜?
取决于工单结构。DeepSeek、Qwen、GLM、硅基流动常用于低价测试,但要看成功会话成本。
能只用一个便宜模型吗?
生产不建议。模糊、政策敏感或高价值客户问题要准备 fallback。
需要记录哪些数据?
客户/workspace、路线、模型、tokens、延迟、重试、置信度、转人工和最终解决结果。
如何降成本又不降质量?
用意图分类、检索片段、短 system prompt、FAQ 缓存,并只在低置信时 fallback。