模型性能评估
为什么要评估?
评估使路由变得数据驱动。通过测量 MMLU-Pro 上的每类别准确率(并使用 ARC 进行快速健全性检查),您可以:
- 为每个决策选择正确的模型并在 decisions.modelRefs 中配置它们
- 根据整体性能选择合理的 default_model
- 决定 CoT 提示是否值得延迟/成本权衡
- 在模型、提示词或参数更改时捕获回归
- 保持更改可复现和可审计,用于 CI 和发布
简而言之,评估将轶事转化为可测量的信号,从而提高路由器的质量、成本效率和可靠性。
本指南记录了通过 vLLM 兼容的 OpenAI 端点评估模型(MMLU-Pro 和 ARC Challenge)、生成基于性能的路由配置以及更新配置中 categories.model_scores 的自动化工作流程。
端到端运行内容
1) 评估模型
- 每类别准确率
- ARC Challenge:整体准确率
2) 可视化结果
- 每类别准确率的柱状图/热力图

3) 生成更新的 config.yaml
- 为每个类别创建带有 modelRefs 的决策
- 将 default_model 设置为最佳平均表现者
- 保留或应用决策级推理设置