随着互联网的普及和互联网信息的爆炸式增长,如何从浩如烟海的信息中准确地找到自己需要的信息成为互联网发展的一大难题。
传统的搜索引擎由于其普适性,对于同一个查询,所有用户得到的结果都是一样的,显然无法满足不同背景、不同用途、不同时期用户的个性化需求。在这个个性化和以人为本的时代,人性化的搜索引擎已经成为时代的需求。在淘宝环境下,用户的主要目的是购物。不同用户的购物差异很大,可以体现在很多方面,比如价格偏好、品类偏好、地域偏好、品质偏好等等。
我们要做的就是探索,了解用户的差异和不同需求,做出个性化的搜索体验,最终帮助用户在淘宝上购物。如前所述,每个用户在很多方面都有自己独特的偏好,购买力是最明显的一个。高帅福和屌丝对商品的价格和质量有完全不同的要求。还搜“t恤”,傅需要面料材质好的品牌货;屌丝需要的是100元包邮的三件主食。这种需求的差异就是我们需要做个性化购买力的原因。我们把用户的购买力分为五档,低、中低、中高、高、超高。
我们将在多个不同的粒度计算用户的购买力,从最细的用户查询粒度到最粗的用户组粒度。粒度越细,数据越精确,但也越稀疏。根据用户在特定查询下的行为,计算用户在单个查询下的购买力。因为是单一查询,所以数据会很稀疏,能覆盖的查询很少。聚类查询,计算查询聚类下用户的购买力,会稍微缓解数据稀疏的问题。然而,这导致了一个新的问题:查询聚类。
类似的查询聚类本身就是一个大工程。而且,虽然查询聚类可以部分增加数据量,但仍然不足以达到丰富的程度。而且,不需要细化到查询粒度。同一类目不同查询下的用户购买力还是会差不多的。在品类粒度上计算用户购买力,可以从后台叶子品类计算到后台级别品类。
因为用户在不同类别(比如IT码农、拿着iphone、穿廉价t恤)会表现出不同的购买力,所以我们会计算用户在多个类别的购买力。用户类别的粒度数据比用户查询的粒度数据丰富得多。下一个用户在一些大的一级类目90天的平均交易大概是3-5笔,有一定的统计意义。结合用户在各个维度的购买力,我们还是从整体上计算一个用户的购买力。这个数据相对更丰富。一个人平均90天中风20次。右的成交。对于那些自身行为很少的用户,我们通过将用户聚合成用户组的方式来预测他们的购买力。
用户组的聚合可以主要是从两个维度:用户的基本物理信息:
a.地域,性别,年龄;
b.用户星级。
相识行为:
a.购买,收藏;
b.点击浏览。
从不同维度将用户分类后,看他们的购买行为是否有一定的相似性(这个可以用那些成交行为丰富的用户来验证),如果购买力类似,差异不大,则说明对人的划分是有效的。
|