vLLM 免费额度 · API 注册教程(2026 年 4 月)
UC Berkeley 开源高吞吐 LLM 推理服务引擎,采用 PagedAttention 技术,自托管运行任意开源模型。
vLLM 是一款category.selfhosted、category.inference工具,UC Berkeley 开源高吞吐 LLM 推理服务引擎,采用 PagedAttention 技术,自托管运行任意开源模型。
同类替代:TextGen、LocalAI、Jan
需要中国大陆直连、统一低价调用多个模型,可轻量查看 openllmapi.com。
免费额度、价格、中国大陆访问状态或注册要求变化时,优先邮件提醒。
免费额度详情
🎁 免费额度
每日限制: Apache-2.0 开源免费。
| 模型 | 上下文 | 限制 | 说明 |
|---|---|---|---|
| OpenAI-compatible server | Depends on the model you serve | Hardware-bound | vLLM 是推理引擎,不卖额度;你自己部署什么模型,服务什么模型。 |
🔑 API 免费额度
免费额度: Self-hosted OpenAI-compatible API; no vendor credits required.
速率限制: Hardware-bound; depends on GPU memory, model size, and concurrency.
vLLM 可把开源模型变成 OpenAI 兼容 API,适合需要私有化部署、低成本推理和高吞吐的团队。
注册教程
访问 vLLM 官网
使用邮箱注册账号(部分需要代理)
进入控制台 → API Keys → 创建新 Key
复制 API Key,在代码中使用(见下方代码示例)
代码示例
from openai import OpenAI
client = OpenAI(
api_key="vllm-local",
base_url="http://localhost:8000/v1",
)
response = client.chat.completions.create(
model="Qwen/Qwen2.5-7B-Instruct",
messages=[{"role": "user", "content": "Hello from yangmao.ai"}],
)
print(response.choices[0].message.content)
中国大陆访问怎么样?
- 直连:✅ 可以
- 速度:local
- 自托管部署,中国大陆可用性取决于你的集群、镜像源和模型下载路径。
常见问题
vLLM 是免费 API 吗?
vLLM 本身开源免费,但它是推理引擎,不是带免费额度的 SaaS;成本来自你自己的 GPU 和运维。
vLLM 能用 OpenAI SDK 吗?
可以,通常把 base_url 指向你的 vLLM server 就行。
免费 API 专题入口
相关对比
📖 相关教程
🔄 相似厂商
总结:谁应该用 vLLM?
如果你需要开源可部署、API 免费额度、国际一流水平的 AI 服务,vLLM 值得一试。 想省钱?先比较免费额度、官方价格、同类替代和 API 网关方案,再决定是否接入生产。