研究背景
本页为可选阅读,用于将 vllm-sr-sim 置于相邻研究系统与规划工具的背景中;多数用户可直接从 快速开始 或 容量规划场景 入手。
vllm-sr-sim 处于多条活跃研究线的交汇点;每篇相关工作回答的问题与本模拟器不同。
Mélange — 异构 GPU 类型选择
Griggs et al.,UC Berkeley,2024 · arXiv:2404.14527
Mélange 表明最优 GPU 类型由三类因素共同决定:请求规模(短请求偏向便宜 GPU;长请求偏向高端 GPU)、到达率(低到达率可右尺寸到更便宜硬件)、SLO 紧度(严格延迟几乎总需要快 GPU)。它将 GPU 分配表述为成本感知的装箱问题——GPU 为箱、负载切片为物品——并用 ILP 求最小成本的多 GPU 类型组合。相对单一 GPU 类型最高可降本约 77%。
与 vllm-sr-sim 的主要差异:
| Mélange | vllm-sr-sim | |
|---|---|---|
| 输入 | 每 (GPU, 请求规模桶, SLO) 的经验吞吐 profile | 由 HardwareSpec + ModelSpec 推导的物理 W/H;无需真实 GPU |
| 输出 | 最优 GPU 类型 组合(多少 A10G、A100、H100 …) | 每池最优 GPU 实例数 + 路由拓扑 |
| 路由 | 无 —— 按规模分箱并映射到 GPU 类型 | 显式路由策略:长度、语义、C+R、模型 |
| 服务模型 | 每 GPU 类型单池,无池间路由 | 多池 + 池间路由与 SLO 校验 |
| SLO 指标 | 平均 TPOT | P99 TTFT(亦可通过 profile 支持 TPOT) |
| 验证 | 真实硬件基准 | 解析 Erlang-C + 离散事件仿真 |
何时用 Mélange: 负载相对同质且需决定租哪种云 GPU SKU。Mélange 选类型;vllm-sr-sim 在给定长度分布与路由策略下告诉你需要多少该类型 GPU。
SageServe — 预测感知的运行时自动扩缩
Jaiswal et al.,Microsoft O365,2025 · arXiv:2502.14617
SageServe 是面向已有机队的运行时控制器。它刻画生产 O365 负载(美国 3 区域、4 模型、 日请求 1000 万+),观察到交互式(IW)流量与机会式非交互(NIW)批作业强烈的日周期,并提出:(1) IW 与 NIW 共享统一 GPU VM 池,而非割裂池;(2) ARIMA 小时级流量预测;(3) ILP 计算最优实例数变化 δ,最小化 VM 冷启动开销;(4) 基于实时内存利用率的反应式启发式。节省约 25% GPU 小时,冷启动浪费降约 80%。
与 vllm-sr-sim 的主要差异:
| SageServe | vllm-sr-sim | |
|---|---|---|
| 问题 | 当前应运行多少实例 | 总体需为某流量水平预置多少 GPU |
| 时间尺度 | 分钟到小时(动态扩缩环) | 静态容量规划(峰值时段规模) |
| 流量模型 | 生产轨迹 + ARIMA | Poisson 到达 / CDF 工作负载 / 轨迹回放 |
| 多层负载 | IW-Fast、IW-Normal、NIW 不同 SLA | 每池单一 SLO(多 SLO 通过多池配置) |
| 路由 | 基于内存利用的跨区域路由 | 长度 / 语义 / 模型 / C+R 内容路由 |
| 性能模型 | 每 (模型, GPU) 的经验 TPS profile | 基于规格的屋顶线物理模型 |
| 硬件需求 | 真实生产轨迹 | 自包含;无需硬件或轨迹 |
何时用 SageServe: 已有部署机队,需在 24 小时需求周期内上下扩缩。先用 vllm-sr-sim 估算峰值机队规模;再套用 SageServe 类策略在低谷时段降规模以节省 20–30% GPU 小时。