淘宝2013年8月最新搜索算法!
青峰,淘宝搜索算法总监。 此文来自qqaiqin.com
淘宝搜索排序的目的是帮助用户快速的找到需要的商品。从技术上来说,就是在用户输入关键词匹配到的商品中,把最符合用户需求的商品排到第一位,其它的依次排在后续相应的位置。为了更好的实现这个目标,算法排序系统基本按三个方面来推进:
此文来自qqaiqin.com
一.算法模型
Q游网qqaiqin
当用户输入关键词进行搜索的时候,系统依据算法模型来给匹配到的每个商品进行实时的计算,并按照分数的大小对商品进行排序。 此文来自qqaiqin.com
对于好的算法模型,首先需要考虑我们能够有哪些特征因子可以应用。比如在网页搜索中,算法模型基本就是按网页的重要性和相关性给网页计算一个分数,然后进行排序。这里的相关性,和重要性就是网页排序模型中两个重要的因子。具体来说相关性因子是指搜索关键字在文档中出现的度数,当这个度数越高时,则认为该文档的相关程度越高。重要度因子比如Google的Pagerank,可以理解为一个网页入口超级链接的数目:一个网页被其他网页引用得越多,则该网页就越有价值。特别地,一个网页被越重要的网页所引用,则该网页的重要程度也就越高。 Q游网qqaiqin
考虑淘宝搜索的时候,有些特征因子是很容易能想到的,比如
Q游网qqaiqin
A.文本的相关性:关键词和商品的匹配,匹配的程度,是否重要词的匹配,匹配词之间的距离等,都可能影响相关性。比如搜索“小鸭子洗衣机”的时候,一个商品的中心词是洗衣机的要比卖洗衣机配件商品的相关性高,小鸭子连在一起的相关性要比“小”和“鸭子”分开时候的相关性高等。文本相关性最基本的计算方式可以参考BM25等。 Q游网qqaiqin
B.类目热点:淘宝数据的一个重要特质是每个商品都挂靠在类目属性体系下面,每个商品都做了一个很好的分类。在搜索过程中,同一搜索词的大量用户行为数据很容易聚焦到相应的热点类目,比如“手机”的搜索行为会集中到手机类目,而不是配件类目。 此文来自qqaiqin.com
C.图片质量:图片是电子商务网站非常重要的一个数据,图片是否精美吸引人,图片上是否有各种各样的“牛皮癣”,和商品匹配度等都很大程度上影响着用户的点击和购买决策。
D.商品质量:每个商品都有不同的质量,商品的描述真实性,是否物美价廉,受人欢迎的程度等
Q游网qqaiqin
E.作弊因子:类似于全网搜索有关键词堆砌,link spam,网页重复等等作弊的问题,电子商务搜索也面临同样的问题,比如商品关键词堆砌,重复铺货,重复开店,广告商品引流等等,也有商品特有的问题如价格作弊,交易作弊等,需要利用统计分析或者机器学习来做异常行为,异常规律的发现和识别并运用到排序中 Q游网qqaiqin
F.公平因子:淘宝的商品很丰富,每个搜索词下都有足够多的商品在竞争,需要在相似质量的情况下让更多的商品和卖家有展示的机会,而不是像网页搜索一样是一个基本静态的排序,照成商品点击和展示的马太效应。
Q游网qqaiqin
类似的商品,卖家,买家,搜索词等方面的特征因子有很多,一个排序模型就是把各种各样不同的特征因子组合起来,给出一个最终的关键词到商品的相关性分数。只用其中的一到两个特征因子,已经可以对商品做一些最基本的排序。如果有更多的特征参与到排序,我们就可能得到一个更好的排序算法。组合的方法可以有简单的人工配置到复杂的类似Learning to Rank等的学习模型。 Q游网qqaiqin
那么如何衡量不同算法之间的优劣呢?
二.线下评估
算法模型的评估一般分为线下的评估和线上的评估,线下的评估很多都体现在搜索中常用的相关性(Relevance)指标。相关性的定义可以分为狭义相关性和广义相关性两方面,狭义相关性一般指检索结果和用户查询的相关程度。而从广义的层面,相关性可以理解为用户查询的综合满意度。当用户在搜索框输入关键词,到需求获得满足,这之间经历的过程越顺畅,越便捷,搜索相关性就越好。 Q游网qqaiqin
在淘宝搜索衡量狭义相关性的时候,一般是使用PI(Per Item)测试的方法:
此文来自qqaiqin.com
A.抽取具有代表性的查询关键词,组成一个规模适当的关键词集合 Q游网qqaiqin
B.针对这个关键词集合,从模型的产出结果中查询对应的结果,进行人工标注(人工判断为相关性好,中,差等). 对人工评测的结果数据,使用预定义好的评价计算公式比如DCG等,用数值化的方法来评价算法模型的结果和标注的理想结果的接近程度 Q游网qqaiqin
利用人工标注数据来计算相关性的分数,来判断模型的好坏;在这个过程中人工不可避免的会有主观的判断,但综合了多人的判断结果还是可以获得一个有统计意义的结果,另一方面标注数据也可以帮助我们找到一个算法表现不理想的地方,有针对性的提升。 此文来自qqaiqin.com
广义的相关性线下评测比较困难,受人工主观因素的影响更大,一般使用SBS(Side by Side)的评测方法,针对一个关键词,把两个不同算法模型产出的结果同时展示在屏幕上,每次新模型和对比模型展示的位置关系都是随即的,人工判断的时候不知道哪一边的数据是新模型的结果,人工判断那一边的搜索结果好,以最终的统计结果综合来衡量新模型和老模型的搜索表现。 Q游网qqaiqin
线下评测的方法和指标有很多,不同的搜索引擎会关注不同的指标,比如以前Yahoo的全网搜索引擎比较关注RCFP (Relevance,Coverage,Freshness, Perspective)等,淘宝搜索线下评测时候一般统计DCG和SBS的指标。
以上相关的更多内容请点击“”查看,以上题目的答案为网上收集整理仅供参考,难免有错误,还请自行斟酌,觉得好请分享给您的好朋友们!
- 『 淘宝推出“极速退款”服务 !
- 『 2015最新一轮淘宝规则调整!
- 『 《淘宝禁售商品管理规范》及其实施细则
- 『 淘宝规则对描述不符的认定和处罚措施!!
- 『 “淘宝保险平台”系统优化升级公告
- 『 淘宝店标、店名、店铺公告及个人介绍设
- 『 淘宝违规扣分什么时候清零?
- 『 2015年淘宝(天猫)虚假交易严重违规处
- 『 淘宝一战成名是什么?
- 『 新增淘宝网出售假冒商品规则定义意见征
- 『 《淘宝拍卖业务管理规范》变更意见征集
- 『 淘宝网评价新规则!
- 『 淘宝网出售假冒商品认定和处罚规则与实
- 『 《淘宝规则》规定的哪些违规行为涉及的
- 『 淘宝会对哪些类型的订单采取冻结资金等
- 『 淘宝冻结资金全解析,淘宝为什么冻结我
- 『 淘宝规则处罚仅仅只是其中一种手段!手
- 『 淘宝网出售假冒商品处理措施表!
- 『 淘宝网各项违规扣分汇总图表!
- 『 淘宝对违规扣分处罚节点一览表!
- 『 淘宝目前已有多个违规类型采用了“首犯
- 『 关于淘宝网服饰配件行业优化商品发布要
- 『 淘宝年货节商品报名基准资质!
- 『 淘宝年货节商家准入基准规则!
- 『 淘宝网营销活动规则,标准全文..
- 『 如何取消VIP工具升级之前所设置的VIP宝
- 『 卖家如何设置支持淘宝VIP价?
- 『 天猫动真格 刷单将遭30天搜索降权处罚
- 『 淘宝“7天无理由退货”和“退货承诺”
- 『 2014年度淘宝网违规扣分将在2014年12月
- 『 《淘宝规则》市场管理情形及实施细则调
- 『 11月11日-淘宝嘉年华期间全网交易规则
- 『 淘宝规则详细介绍,淘宝规则网站地址,淘
- 『 低价商品评价、销量计算逻辑调整公告
- 『 淘宝网出售假冒商品认定和处罚规则与实
- 『 淘宝网营销活动规则!
- 『 新增《淘宝禁售商品管理规范》及其实施
- 『 新增《淘宝网生鲜类预售商品发布管理公
- 『 《淘宝禁售商品管理规范》及其实施细则
- 『 淘宝橱窗推荐新规试行 金牌卖家获益多!
- 『 2014年6月淘宝对于虚假交易新规更新!
- 『 【万能的淘宝】世界杯饿急送,活动规则
- 『 淘宝拍卖保证金归属变更生效通知
- 『 淘宝新增购买刀具实名制规则生效通知
- 『 淘宝新增《淘点点平台及商户管理规范》
- 『 卖家刻意规避淘宝监管发生虚假交易行为
- 『 搜索降权时间滚动计算”中的“降权时间
- 『 在淘宝网购物,签收问题的争议处理!
- 『 2014年淘宝新规则,读读更能理解淘宝新








