Cerebras

Cerebras runs models on custom wafer-scale chips, delivering extremely fast inference. If raw speed is your priority, Cerebras is hard to beat.

Setup

Get your API key from Cerebras Cloud.

export CEREBRAS_API_KEY=...

{
  "providers": {
    "cerebras": "${CEREBRAS_API_KEY}"
  }
}

{
  "agents": [
    { "name": "fast-worker", "model": "cerebras:gpt-oss-cerebras" }
  ]
}

Model	Best for
`gpt-oss-cerebras`	Fast general-purpose inference
Llama variants	Open model inference at speed

Cerebras is one of the fastest inference providers available. Time-to-first-token is often under 100ms.
Good for the same “fast-worker” pattern as Groq — assign high-volume, simpler tasks to Cerebras agents.

⌘I