eBay网站有 1.8 亿个活跃用户。在任何一个给定的时刻,都会有 3.5 亿左右的商品被销售。eBay 的拍卖搜索引擎上,每天会产生 2.5 亿次搜索。Hugh Williams 说,公司在 Hadoop 集群和 Teradata 服务器上拥有的原始数据是 10 PB。通过对这些数据的利用,公司可以提高在线的交易量,引导用户购买更多商品。
Hugh Williams主要谈到了搜索引擎的优化。通过对数据的分析,公司可以把握用户的行为模式,从而优化搜索结果。“如果将时间倒退几年,你使用 eBay 的搜索引擎时,会发现它只理解字面意思”,Williams说,“你可以在搜索引擎输入文字,它将按照字面含义寻找,但是并不能真正理解你想法的深层含义”。
现在,eBay要使搜索引擎更加“直觉化”。例入,eBay 发现,那些想要购买 Pilzlampe 的用户,如果他们输入了“Pilz lampe“的话,更有可能购买商品,因为搜索引擎会给出更多结果,因此,搜索引擎通过在单词中增加一个空格,就可以增加在线交易量。
eBay会根据自己掌握的信息,改变或重写用户的搜索请求,增加同义词或者替换语句,从而给出更具相关性的结果。另外,eBay还通过大数据来预测商品是否销售出去,销量会是多少,然后调整商品在搜索引擎上的排名。
Williams说,增加因素来改变搜索结果是有风险的。公司通常需要几个月来增加一项因素,而且他们不知道是否真的对用户有用。为此,eBay会在一小部分用户那里进行测试,然后观察他们的反应。
改善搜索引擎的过程中,对用户搜索请求的情景判断是一个挑战。比如用户在搜索“吉朗猫球队(Geelong Cats)”的时候,搜索引擎可能会把“猫”做为关键词,然后搜索宠物这一类别,这对于用户来说是无用信息。“在我们这样的大规模下,会发生很多微小的问题,因此需要数据专家之类的人员来调查这些事情。”Williams 说。
【编辑推荐】