NVIDIA Dynamo 的语义智能层
1. 执行摘要
本提案概述了 vLLM Semantic Router 与 NVIDIA Dynamo 之间的全面集成策略,将语义智能与高性能分布式 Inference 相结合。该集成通过利用以下特性,创建了一个统一的 Inference 堆栈:
- Semantic Router 的智能请求分类(14 个领域类别)、领域感知的 System Prompt、融合路由(BERT 分类 + 关键词匹配 + 相似度搜 索)、安全过滤、基于 Milvus 的 Semantic Cache
- Dynamo 的分离式服务 (Disaggregated Serving)、KV-aware 路由和多层内存管理
结果是一个具有系统级智能的生产级 LLM 服务平台,在准确性(通过优化的 Prompt 路由到正确的模型以获得最佳质量)和效率(最大化 GPU 利用率并最小化延迟)之间实现了最佳平衡,构建了一个整体智能的 Inference 系统。
核心收益:
- 系统级智能:在整个 Inference 堆栈中优化平衡准确性和效率
- 显著降低成本:通过智能模型选择结合基础设施优化实现
- 大幅改善延迟:通过 Semantic Cache + KV Cache 管理以及自适应路由策略实现
- 增强 LLM 质量:利用领域感知的 System Prompt 改善 Chain-of-Thought (CoT) 推理、Token 效率和 MoE 专家匹配
- 自适应路由智能:通过融合路由实现:根据查询复杂度,从快速路径 (关键词) 到深度分析 (BERT),在不牺牲准确性的情况下最大化效率
- 多信号决策:结合 BERT 分类、关键词匹配和相似度搜索,实现稳健且准确的路由
- 全面的内容安全:在 Inference 之前进行 PII 检测和 Jailbreak 防护
- 端到端可观测性:跨语义层和基础设施层,用于持续系统优化
2. 动机:为什么为 Dynamo 引入 Semantic Router?
2.1 Dynamo 路由能力(现状)
NVIDIA Dynamo 提供了一个复杂的 KV-aware 路由,针对基础设施层面的效率进行了优化:
| 能力 | 描述 | 优化目标 |
|---|---|---|
| KV Cache 感知路由 | 将请求路由到具有最高 KV Cache 命中率的工作节点 | TTFT,吞吐量 |
| 基于负载的路由 | 在工作节点之间平衡活动的解码块 | ITL,GPU 利用率 |
| 成本函数优化 | 最小化 potential_prefill_blocks + potential_active_blocks | 计算成本 |
| 基于温度的选择 | 概率性路由以防止工作节点饱和 | 负载分布 |
| 事件驱动追踪 | 通过工作节点事件实时获取缓存状态 | 路由准确性 |
核心特征:
- 专注于基础设施:优化 GPU 内存和计算利用率
- 缓存感知:利用现有的 KV Cache 来降低预填充 (Prefill) 成本
- 负载均衡:在工作节点之间分配解码 (Decode) 工作负载
- 性能导向:通过智能调度最小化 TTFT 和 ITL