结论
- Cursor/custom model 流量要按 accepted patch 和完成任务计成本。
- DeepSeek、Qwen 是常见低价代码首测;GLM 适合作为国产 fallback。
- OpenAI-compatible 设置能降低迁移成本,但 streaming 和工具行为仍要 smoke test。
- 开启自主编辑循环或大仓库索引前,必须设预算上限。
怎么做
- 确认编辑器支持自定义 base_url、api_key 和 model。
- 跨 provider 跑同三类任务:解释文件、修改一个文件、修一个失败测试。
- 记录 patch 接受率、重试、延迟和 token 花费。
- 使用长时间 Agent 模式前设置日/月限额。
- 当一个 key、provider 路由、日志和 fallback 比手动维护 profile 更重要时,用 OpenLLMAPI。
推荐路径对比
| 平台 | 免费/额度 | 适合 |
|---|---|---|
| DeepSeek | 额度/价格变化 | 低价推理和代码修改 |
| 通义千问 | 注册额度变化 | 代码、长上下文、中国大陆友好设置 |
| 智谱 GLM | 注册 tokens 变化 | 国产 GLM fallback 和预算测试 |
| 硅基流动 | 免费/开源路线变化 | 中国大陆直连兼容 endpoint 实验 |
| OpenLLMAPI | 体验额度变化 | 带预算和 fallback 的统一代码 Agent endpoint |
自有平台承接
给代码工具一个带预算的 key
在 Qwen、DeepSeek、GLM 和 fallback 模型之间路由 Cursor 风格代码任务,并按任务或用户追踪花费。
FAQ
Cursor 选最低 token 单价就行吗?
不行。代码 Agent 会重试、产出失败 patch 或撞上下文限制。应比较每个被接受代码改动成本。
能用 OpenAI SDK 风格 endpoint 吗?
provider 支持兼容 endpoint 时通常可以,但要显式配置 base_url 和 model。
先测哪个 provider?
低价代码先测 DeepSeek 和 Qwen,再用 GLM/硅基流动做中国大陆友好 fallback。
什么时候需要网关?
多编辑器、多人、预算、provider 和 fallback 规则变复杂,并且需要每次 Agent run 日志时。