使用 Gateway API Inference Extension 安装
本指南提供了将 vLLM Semantic Router (vSR) 与 Istio 和 Kubernetes Gateway API Inference Extension (GIE) 集成的分步说明。这种强大的组合允许您使用 Kubernetes 原生 API 管理自托管的 OpenAI 兼容模型,实现高级的 load-aware routing。
架构概览
部署包含三个主要组件:
- vLLM Semantic Router:基于请求内容对传入请求进行分类的智能核心。
- Istio & Gateway API:网络网格和所有进入集群流量的前门。
- Gateway API Inference Extension (GIE):用于管理和扩展自托管模型后端的 Kubernetes 原生 API 集(
InferencePool等)。
集成优势
将 vSR 与 Istio 和 GIE 集成,为服务 LLM 提供了一个强大的 Kubernetes 原生解决方案,具有以下关键优势:
1. Kubernetes 原生 LLM 管理
使用熟悉的自定义资源定义 (CRD) 通过 kubectl 直接管理您的模型、路由和扩展策略。
2. 智能模型和副本路由
结合 vSR 基于提示词的模型路由与 GIE 的智能负载感知副本选择。这确保请求不仅发送到正确的模型,还发送到最健康的副本,一次高效跳转完成所有操作。
3. 保护模型免受过载
内置调度器跟踪 GPU 负载和请求队列,在高需求时自动卸载流量,防止模型服务器崩溃。
4. 深度可观测性
从高级别 Gateway 指标和详细的 vSR 性能数据(如 token 使用和分类准确性)获取洞察,以监控和排查整个 AI 堆栈。