跳到主要内容
vLLM LogoSystem Level Intelligence

智能路由面向混合模态

信号驱动 决策 · 插件链 架构
云 · 数据中心 · 边缘

🎯信号驱动
🔌插件链
🌐云 · 数据中心 · 边缘
MoM

基于编码器模型

编码器驱动的智能

专用编码器模型从每个请求中提取语义 — 理解意图、排序相关性、跨模态实时分类内容。

Input
"Is machine learning related to AI?"
Tokenizer
[CLS]IsmachinelearningrelatedtoAI?[SEP]
Embedding
Token Emb
Segment Emb
Position Emb
h₀ = Σ
Encoder Block
×N
🔗Multi-Head Attention
Add & Norm
⚙️Feed-Forward
Add & Norm
Signals
🎯
Sentence-Level (CLS Token)[CLS] → Linear Head → "computer_science"TaskType: SEQ_CLS
DomainJailbreakFact-checkFeedbackModality
🏷️
Token-Level (Per Token)Each token → BIO Label → O O B-LOC I-LOC OTaskType: TOKEN_CLS
PII Detection
🌊
Bi-Encodermean-pooling(h₁..hₙ) → [0.23, -0.41, 0.87, ...]TaskType: EMBEDDING
Semantic CacheSimilarityComplexity-CLJailbreak-CL
🔀
Cross-Encoder[CLS] query [SEP] candidate [SEP] → scoreTaskType: CROSS_LEARNING
RerankMulti-Modal
🎭

多模态

检测并路由文本、图像和音频输入到合适的模态模型。

🧬

Bi-Encoder 嵌入

独立编码查询和候选项为稠密向量,用于相似度搜索和语义缓存。

Cross-Encoder 学习

联合交叉注意力评分查询-候选对,实现高精度重排序。

🤔

分类

基于自研 BERT 的领域、越狱、PII 和事实核查的分类器,覆盖多个 signal

👁️

全注意力

跨 token 和句子的双向注意力 — 双向完整上下文,非因果掩码。

🪆

2DMSE

推理时自适应调整嵌入层数和维度,按需平衡计算量与精度。

📐

MRL

无需重训即可截断嵌入向量到任意维度 — 按请求平衡精度与速度。

🏗️ 架构

Architecture

🎯 我们的目标

为混合模型(MoM)构建系统级智能,将全局智能引入 LLM 系统

vLLM Semantic Router Banner
1
如何捕获请求、响应和上下文中的缺失信号?
2
如何结合这些信号做出更好的决策?
3
如何在不同模型之间更高效地协作?
4
如何保护现实世界和 LLM 系统免受越狱攻击、PII 泄露和幻觉的影响?
5
如何收集有价值的信号并构建自学习系统?

📍 它的位置

它位于现实世界和模型之间

Where vLLM Semantic Router Lives

👥 认识我们的团队

vLLM Semantic Router 背后的优秀成员

Huamin Chen维护者

Huamin Chen

Distinguished Engineer @Red Hat

Chen Wang维护者

Chen Wang

Senior Staff Research Scientist @IBM

Yue Zhu维护者

Yue Zhu

Staff Research Scientist @IBM

Xunzhuo Liu维护者

Xunzhuo Liu

Intelligent Routing @vLLM

Senan Zedan提交者

Senan Zedan

R&D Manager @Red Hat

samzong提交者

samzong

AI Infrastructure / Cloud-Native PM @DaoCloud

Liav Weiss提交者

Liav Weiss

Software Engineer @Red Hat

Asaad Balum提交者

Asaad Balum

Senior Software Engineer @Red Hat

Yehudit提交者

Yehudit

Software Engineer @Red Hat

Noa Limoy提交者

Noa Limoy

Software Engineer @Red Hat

JaredforReal提交者

JaredforReal

Software Engineer @Z.ai

Srinivas A提交者

Srinivas A

Software Engineer @Yokogawa

carlory提交者

carlory

Open Source Engineer @DaoCloud

Yossi Ovadia提交者

Yossi Ovadia

Senior Principal Engineer @Red Hat

Jintao Zhang提交者

Jintao Zhang

Senior Software Engineer @Kong

yuluo-yx提交者

yuluo-yx

Individual Contributor

cryo-zd提交者

cryo-zd

Individual Contributor

OneZero-Y提交者

OneZero-Y

Individual Contributor

aeft提交者

aeft

Individual Contributor

Huamin Chen维护者

Huamin Chen

Distinguished Engineer @Red Hat

Chen Wang维护者

Chen Wang

Senior Staff Research Scientist @IBM

Yue Zhu维护者

Yue Zhu

Staff Research Scientist @IBM

Xunzhuo Liu维护者

Xunzhuo Liu

Intelligent Routing @vLLM

Senan Zedan提交者

Senan Zedan

R&D Manager @Red Hat

samzong提交者

samzong

AI Infrastructure / Cloud-Native PM @DaoCloud

Liav Weiss提交者

Liav Weiss

Software Engineer @Red Hat

Asaad Balum提交者

Asaad Balum

Senior Software Engineer @Red Hat

Yehudit提交者

Yehudit

Software Engineer @Red Hat

Noa Limoy提交者

Noa Limoy

Software Engineer @Red Hat

JaredforReal提交者

JaredforReal

Software Engineer @Z.ai

Srinivas A提交者

Srinivas A

Software Engineer @Yokogawa

carlory提交者

carlory

Open Source Engineer @DaoCloud

Yossi Ovadia提交者

Yossi Ovadia

Senior Principal Engineer @Red Hat

Jintao Zhang提交者

Jintao Zhang

Senior Software Engineer @Kong

yuluo-yx提交者

yuluo-yx

Individual Contributor

cryo-zd提交者

cryo-zd

Individual Contributor

OneZero-Y提交者

OneZero-Y

Individual Contributor

aeft提交者

aeft

Individual Contributor

Huamin Chen维护者

Huamin Chen

Distinguished Engineer @Red Hat

Chen Wang维护者

Chen Wang

Senior Staff Research Scientist @IBM

Yue Zhu维护者

Yue Zhu

Staff Research Scientist @IBM

Xunzhuo Liu维护者

Xunzhuo Liu

Intelligent Routing @vLLM

Senan Zedan提交者

Senan Zedan

R&D Manager @Red Hat

samzong提交者

samzong

AI Infrastructure / Cloud-Native PM @DaoCloud

Liav Weiss提交者

Liav Weiss

Software Engineer @Red Hat

Asaad Balum提交者

Asaad Balum

Senior Software Engineer @Red Hat

Yehudit提交者

Yehudit

Software Engineer @Red Hat

Noa Limoy提交者

Noa Limoy

Software Engineer @Red Hat

JaredforReal提交者

JaredforReal

Software Engineer @Z.ai

Srinivas A提交者

Srinivas A

Software Engineer @Yokogawa

carlory提交者

carlory

Open Source Engineer @DaoCloud

Yossi Ovadia提交者

Yossi Ovadia

Senior Principal Engineer @Red Hat

Jintao Zhang提交者

Jintao Zhang

Senior Software Engineer @Kong

yuluo-yx提交者

yuluo-yx

Individual Contributor

cryo-zd提交者

cryo-zd

Individual Contributor

OneZero-Y提交者

OneZero-Y

Individual Contributor

aeft提交者

aeft

Individual Contributor

致谢

vLLM Semantic Router 诞生于开源,构建于开源 ❤️