结论
- 代码模型覆盖优先:先测 Qwen。
- 中国大陆低成本备选:测 GLM,并确认 key、模型名、endpoint 权限。
- 不要只看 token 单价,要看重试率、工具调用、上下文和成功率。
- 长时间 Agent 运行前必须配置预算上限和 fallback。
怎么做
- 确认你的工具支持自定义 base_url、api_key、model。
- 用 Qwen 兼容模式跑一个小型代码修改和 JSON/tool-call smoke。
- 用 GLM 官方 endpoint 与准确模型名跑同样测试。
- 记录延迟、失败率、重试次数和每个成功任务成本。
- 上线前接入 fallback、日志和月度预算告警。
推荐路径对比
| 平台 | 免费/额度 | 适合 |
|---|---|---|
| Qwen | 百炼/DashScope 额度随账号与活动变化 | 代码模型覆盖、中国大陆开发者、兼容模式 |
| 智谱 GLM | Flash/新用户额度以控制台为准 | 中国大陆低成本 fallback 与 GLM 测试 |
| DeepSeek | 免费额度变化快,核心优势是低价 | 低成本推理/代码备选 |
| OpenRouter | 免费模型有限速 | 先横向比较多个模型 |
自有平台承接
想用一个 key 管理 Qwen、GLM 与 fallback?
在 yangmao.ai 对比中国大陆可用 API 路由,用 OpenAI 兼容配置接入,并给 Agent 加预算控制。
FAQ
Qwen 和 GLM 都能用 OpenAI SDK 吗?
通常可以走兼容模式,但必须改 base_url、key 和模型名;工具调用、JSON 模式等能力要逐项 smoke。
哪个更便宜?
看每个成功任务成本。便宜模型如果多次重试,实际可能更贵。
在中国做 Claude Code 替代,先测谁?
通常先测 Qwen,再把 GLM/DeepSeek 做 fallback。
需要监控什么?
token、重试、失败工具调用、延迟、每个 issue/任务的完成成本。