人工智能领域正经历快速迭代:一个适合智能编码的模型,可能在短短三个月内就被来自不同供应商的新模型取代。同时,实际应用中往往需要结合多个模型的能力。例如,客服系统可能使用轻量级模型分类用户消息,大型推理模型规划操作流程,再由另一个模型执行具体任务。
这种多模型协作的方式带来了显著挑战:如何避免被单一供应商绑定?如何有效管理跨供应商的成本、延迟和可靠性?这些问题在构建智能体(Agentic AI)时尤为突出。一个简单的聊天机器人可能只需一次推理调用,而复杂智能体可能需要串联十次调用才能完成任务——此时,50 毫秒的延迟可能扩大到 500 毫秒,单点故障也可能引发连锁问题。

一个目录,一个统一端点
从今天起,开发者可以通过与 Workers AI 相同的 AI.run ( ) 接口调用第三方模型。切换供应商(如从 OpenAI 切换到 Anthropic)仅需修改一行代码:
const response = await env.AI.run ( 'anthropic/claude-opus-4-6', { input: 'What is Cloudflare?' }, { gateway: { id: "default" } } ) ;
对于非 Workers 用户,Cloudflare 还将在未来几周推出 REST API 支持,方便在任何环境中访问完整模型目录。
目前,Cloudflare 已整合来自阿里云、AssemblyAI、字节跳动、谷歌、InWorld、MiniMax、OpenAI等 12 家供应商的 70 多个模型,并支持通过统一积分支付费用。开发者可通过模型目录找到最适合自身需求的模型。
此外,AI Gateway 还提供集中化平台,帮助监控和管理跨供应商的 AI 支出。通过自定义元数据,您可以按属性(如免费用户与付费用户、特定工作流)细分成本:
const response = await env.AI.run ( '@cf/moonshotai/kimi-k2.5', { prompt: 'What is AI Gateway?' }, { metadata: { "teamId": "AI", "userId": 12345 } } ) ;
通往首个令牌的快速路径
在实时智能体场景中,速度至关重要。用户的感知速度取决于首个令牌的生成时间,而非完整响应的时间。即使总推理时间为 3 秒,让首个令牌提前 50 毫秒生成,也能显著提升用户体验。
Cloudflare 的全球网络覆盖 330 个城市,AI Gateway 能够最大限度减少网络延迟。此外,Workers AI 托管的开源模型(如 Kimi K2.5 和实时语音模型)可通过内部网络直接调用,无需经过公共互联网,从而进一步降低延迟。
具备自动故障转移的可靠性设计
除了速度,可靠性也是关键。智能体的工作流通常依赖于前序步骤的结果,一旦某个环节失败,可能影响整个下游链条。
AI Gateway 通过自动故障转移机制解决了这一问题:如果某模型在多个供应商上可用,当其中一个供应商发生故障时,请求将自动路由到其他供应商,无需额外编写逻辑。
对于长时间运行的智能体,AI Gateway 还支持断连恢复功能。即使智能体在推理过程中中断,也可以重新连接并检索缓冲的响应,而无需重新发起调用或重复支付。
随着 Replicate 团队加入 Cloudflare,更多功能正在整合中。未来,您将能够通过 AI Gateway 访问 Replicate 上的模型,并将其托管到 Workers AI。
要开始使用,请访问AI Gateway 文档或Workers AI 文档。