结论
- 直连通常赢在最低原始 token 单价和更少网络跳数。
- 网关赢在路由、兜底、预算日志、成本归因、多模型覆盖和减少维护成本。
- 对生产 Agent 来说,兜底稳定性常常比省最后 5-15% token 成本更值钱。
- 最佳架构可以混合:高量稳定任务直连,边缘模型和故障兜底走网关。
怎么做
- 列出必须支持的模型家族、地区、tool calls、JSON mode、图像、embedding 等能力。
- 估算月调用量,对比直连单价和网关加价。
- 把 key 管理、重试、故障切换、成本 dashboard 和按功能归因的工程时间也计入成本。
- 用同一套 smoke suite 同时测直连和网关的延迟与错误格式。
- 栈简单先直连;模型和路由复杂后,增加或切到网关。
推荐路径对比
| 平台 | 免费/额度 | 适合 |
|---|---|---|
| 直连 DeepSeek | $5 注册 / 当前额度 | 稳定高量的低成本代码和推理 |
| 直连 Qwen | 7000 万 tokens | 中国大陆友好长上下文和代码 |
| OpenRouter | 免费模型路线 | 多模型市场和快速横评 |
| 硅基流动 | ¥14 + 免费模型路线 | 中国大陆直连开源模型平台 |
| OpenLLMAPI | 注册体验额度 | 统一 endpoint、预算日志和兜底路由 |
自有平台承接
想要网关能力,但不想重写应用?
用一个 OpenAI-compatible endpoint,统一做 GPT、Claude、Gemini、DeepSeek、Qwen、GLM 路线的兜底、日志和路由。
FAQ
LLM 网关一定更贵吗?
原始 token 可能有加价,但总成本不一定更高。少接几套 provider、自动兜底和统一日志能节省工程和故障成本。
什么时候不要用网关?
当单一 provider 就够用、数据合规必须直签、或每一毫秒/每一分钱单价都极其敏感时,优先直连。
可以直连和网关混用吗?
可以。高量稳定任务直连,premium 模型、实验、区域兜底和故障切换走网关,是很常见的组合。
选择前要测什么?
测延迟、streaming、tool calls、JSON mode、错误处理、重试、账单/日志质量、按用户成本归因和模型下线策略。