Groq 在中国怎么用?超快 AI 推理指南

Groq 用自研 LPU(Language Processing Unit)芯片,推理速度是 GPU 的 10 倍以上。Llama 3.1 70B 在 Groq 上能跑到 300+ tokens/秒,体验像是 AI 在"秒回"。

Groq 免费额度

| 模型 | 免费限制 | 速度 |

|------|---------|------|

| Llama 3.1 70B | 30 RPM / 14400 tok/min | ~300 tok/s |

| Llama 3.1 8B | 30 RPM / 14400 tok/min | ~800 tok/s |

| Mixtral 8x7B | 30 RPM / 5000 tok/min | ~500 tok/s |

| Gemma 2 9B | 30 RPM / 14400 tok/min | ~600 tok/s |

免费额度对个人开发者完全够用。

中国大陆怎么用?

Groq API 中国大陆不能直连。两种方案:

方案 1:API 中转(推荐)

from openai import OpenAI

client = OpenAI(

api_key="你的 openllmapi Key",

base_url="https://api.openllmapi.com"

)

response = client.chat.completions.create(

model="llama-3.1-70b-versatile",

messages=[{"role": "user", "content": "Hello"}]

)

print(response.choices[0].message.content)

通过 openllmapi.com 中国大陆直连调用 Groq。

方案 2:代理 + 官方 API

  • 访问 console.groq.com
  • 用 Google/GitHub 账号登录
  • 获取 API Key
  • 代理环境下调用
  • curl https://api.groq.com/openai/v1/chat/completions \
    

    -H "Authorization: Bearer 你的KEY" \

    -H "Content-Type: application/json" \

    -d '{"model": "llama-3.1-70b-versatile", "messages": [{"role": "user", "content": "Hello"}]}'

    Groq 适合什么场景?

    • 实时对话 — 300+ tok/s 的速度让对话几乎无延迟
    • 流式输出 — 打字机效果极其流畅
    • 批量处理 — 速度快意味着同样时间处理更多请求
    • 原型开发 — 快速迭代,不用等 AI 慢慢生成

    Groq vs 其他

    | | Groq | DeepSeek | ChatGPT |

    |--|------|----------|---------|

    | 速度 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐ |

    | 模型能力 | ⭐⭐⭐⭐(Llama 70B) | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ |

    | 免费额度 | 30 RPM | $5 赠金 | 无(API) |

    | 中国大陆直连 | ❌ | ✅ | ❌ |

    | 自有模型 | ❌(跑开源模型) | ✅ | ✅ |

    总结

    Groq 的杀手锏是速度。如果你的应用对响应时间敏感(实时聊天、流式输出),Groq 是最佳选择。中国大陆通过中转站使用即可。

    👉 Groq 详情 · 42 家 AI 免费额度汇总

    ---

    更新于 2026 年 4 月。