02 排序策略大家回想之前浙江卫视的中国好声音节目 , 那些在电视荧幕上看到的唱歌选手也一定是提前开始海选 , 然后逐层选拔通过才会参加电视上的唱歌比赛吧 , 如果没有海选这个环节呢 , 每个人只要报名都可以直接在电视上唱那么一曲 , 那岂不是要把浙江卫视那些工作人员累死 , 所以选手是通过海选 , 逐层比赛 , 一关一关的通过 , 最后挑选出表现优秀的前100名参与电视上的唱歌比赛;
我们采用同样的套路 , 召回的商品(因为这个量级也是非常巨大的)先海选 , 再去精选 , 业内很多人称海选为粗选 , 所以召回的商品先要进行粗选 , 通过粗选把可能满足用户意图并且是相对优质的商品(比如有一万个)全部筛选出来 , 再去优化(一万个召回的商品精选排序)这个选择的结果 , 最后把选出来的前1000(只是假设)个商品进行排序展示给用户;
搜索引擎本身对于检索性能要求比较高 , 所以需要采用上面说的两个阶段排序过程:粗排和精排 。粗排就是上面说的海选 , 从检索结果中快速找到优质的商品 , 取出TOP N个结果再按照精排进行打分 , 最终返回最优的结果给用户 。所以一般在搜索系统中 , 粗排对性能影响比较大 , 精排对最终排序效果影响比较大 , 因此 , 粗排要求尽量简单有效 , 只提取数据库表中的关键因子(字段)即可 , 关键的问题在于打分怎么打 , 下面将给大家介绍常见的打分策略:
我们首先引入一个新的概念—-表达式计算法
所谓表达式计算法:通俗的讲 , 就是通过不同的计算公式来运算每个被召回的产品和用户意图的相关度 , 这个相关度某种意义上讲就是打的分数 , 业内普遍称这个过程为相关算分 , 一般常见的计算公式比如基本运算(算术运算、关系运算、逻辑运算、位运算、条件运算)、数学函数和排序特征(feature)等 。
基本运算:

文章插图
数学函数:

文章插图
以上两个函数比较简单 , 高等数学里面都有的内容 , 这里不再细说 , 下面来看下上面提到的粗排常用的几个函数(以下为天猫搜索为例):
关键词相似文本分Text similarity()函数:用于计算用户输入的关键词文本与召回的商品相关度 , 值越大 , 则相关度越高;
召回商品距离现在的时间GoodsTime()函数:用于计算召回的商品距离现在的时间 , 一般取值为(0 , 1)之间 , 一般值越大 , 表商品距离现在时间越近 , 越容易被展示在用户的界面;
类目预测函数CategoryPredic():用于计算用户输入的关键词与商品类目的相关度 , 关于类目预测这里需要仔细说明下:
所谓类目预测 , 指的是通过计算机的算法去预测搜索的关键词与商品
类目的相关程度 , 我们举个例子 , 当用户在淘宝APP搜索框中输入关键词“苹果” , 则类目预测会计算商品所属类目与输入的苹果这个关键词的相关度 , 类目与关键词的相关度越高 , 商品就获得了越高的排序得分 , 也就是上文说到的相关算分值就越高 , 从而这个商品就会排在越前面 , 借助下面这两张图 , 就更好理解了:
- 老大|老大就该让着弟弟妹妹吗 生二胎如何考虑大宝的感受
- 有没有办法能彻底治愈 贴肚脐治二型糖尿病是真的吗
- 板栗苗怎么养护 怎么能二次发育一下
- 上海为什么不出二手房指导价 汤臣倍健蛋白粉下架
- 混合痔疮手术需要去二甲医院还是三甲医院呢 内外混合痔手术多少钱
- 半流质食物一周菜谱 二人一周食谱
- 曾经初恋的爱人的生日祝福语二十四年未见的初恋男朋友生日祝福语 之前的情人过生日
- 含有毒性很高的污染物和高危致癌物二噁英 螃蟹的营养价值与危害
- 糖尿病饮食建议 二型糖尿病病人饮食表
- 二十个月宝宝吃什么鱼好 狭鳕鱼能给小孩吃吗
特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
