记录一个有意思的需求: 希望search时,可以有基于标量的相似度检索 比如,年龄最接近20岁 最开始有理解这个需求,但是传统的检索实际是只区分了标量和向量的检索,所以没有get到这个需求是否必须 标量往往代表着严格的关系式检索条件,向量则在结果的基础上作进一步的基于相似度的检索
直到在使用美团时,看到距离排序,好评优先,价格低优先,高优先等 突然意识到这其实是一个非常有价值的需求
比如租房,想要筛选最接近2500的房子,目前只能手动调整范围,范围之后再排序;而接近2500 一个动作可以替代之前的两个动作
展开来讲,一个物品往往有多个标签,用户其实对部分标签是有倾向喜好的,当然这里我不太了解 向量检索的算法发展经历 向量检索必然是发展自 多个复杂标量难以维护的基础发展而来,所以可能模型推荐的作用就是 调整检索时标签的权重?
但是真实用户的需求,在对结果的筛选时,其实最后只会剩余较少的筛选条件和结果?
以及,这个需求的置放位置: 目前美团的实现,实际是基于结果的粗排序,没有锚点,所以单屏结果时,简单排序其实在用户终端实现是成本更低,更优的实现,所以看似不适合放在vdb 但是如果多个标量纬度的相似度筛选需求,是否可以放在vdb侧,实际这样vdb就变成了简单的推荐系统 而且某种程度,所有标量按理都会量化在向量中? 是否有一种可能,只存储标量,自动量化,可以动态均衡 单独标量的相似度检索和 整体向量的相似度检索,我想这些都会在模型推理中有答案