内存语义缓存 (In-Memory Semantic Cache)
内存缓存后端直接在内存中存储语义嵌入和缓存的响应,以实现快速的本地缓存。
概览
内存缓存将所有缓存数据存储在应用程序的内存中,提供低延迟访问,且无需外部依赖。
架构
工作原理
写入路径 (Write Path)
缓存响应时:
- 使用配置的嵌入模型为查询生成嵌入
- 在内存中存储嵌入和响应
- 应用 TTL(如果已配置)
- 如果达到
max_entries限制,驱逐最早/最少使用的条目
读取路径 (Read Path)
搜索缓存的响应时:
- 为传入的查询生成嵌入
- 在内存缓存中搜索相似的嵌入
- 如果相似度超过阈值,返回缓存的响应(缓存命中)
- 否则,转发到 LLM 并缓存新的响应(缓存未命中)
搜索方法
该缓存支持两种搜索方法:
- 线性搜索:将查询嵌入与所有缓存的嵌入进行对比
- HNSW 索引:使用分层图结构实现更快的近似最近邻搜索