API商城
提示词商城
AI大模型
API提供商
API知识库
产品和服务
控制台
所有文章
> 当前标签:
推理扩展
深入了解 Gateway API 的推理扩展
2025/06/19
本文深入探讨了 Gateway API 推理扩展在 Kubernetes 上运行 AI 推理工作负载时的应用。该项目引入了两个新的自定义资源定义(CRD):InferenceModel 和 InferencePool,以及端点选择器概念,旨在通过智能路由和负载均衡优化 GPU 和 LLM 的利用率。这些功能显著提高了请求处理效率,为组织节省成本。推理扩展项目的设计使得能够以‘模型即服务’的方式自托管 GenAI/LLM,提高 AI 推理的灵活性和性能。
搜索、试用、集成国内外API!
幂简集成
API平台
已有
6656
种API!
API大全
搜索文章
文章精选
深入了解 Gateway API 的推理扩展
2025/06/19