eBay构建三层数据业务平台应对大数据

数据库
美国电商网站eBay每天要处理100PB的数据,其中包括50TB的机器数据,这对于eBay来说是个不小的挑战。

 [[113840]]

在日前在伦敦举行的GartnerCRM高峰论坛上,eBay全球业务分析负责人DavidStephenson做了演讲,他表示,我们做网站的目的很简单,就是要让交易成功。

作为交易市场,eBay的首要任务就是让销售者和消费者都能获得满意的体验。

应对大数据,从提出正确的问题开始

eBay借助分析软件更好地理解客户。Stephenson希望能够将小商铺的个性化推荐成功运用到面向全球的eBay网站上。他表示:“在小商店,理解客户很重要。店主需要提供个性化的推荐、了解客户偏好、从客户身上不断学习。”

网络测量数据对Stephenson来说还是陌生的新数据类型。eBay会生成大量的网站分析数据,Stephenson称之为“客户的足迹”。它可以鲜明地告诉工作人员谁来过他们的网站,都做了些什么。

Stephenson表示:“网站上能够提供和实体店购物同样的体验,客户可以比较不同的商品。我们也能够了解到客户的意图。”这些都在慢慢改变着eBay。

eBay的网站分析无所不至,就像是在每个顾客前面安装了摄像头一般。细致的网站分析也给数据管理带来困难。整个网站平均每月产生1亿小时的录像,客户数据多的难以想象。Stephenson坦言:“谁也没有办法每月处理1亿小时的数据。”

“我们只能尽量理解客户,应用数据科学技术利用更多的数据和更新类型的数据。”

eBay面临的是1亿的用户,3万多种商品,每秒钟几千美元的交易。Stephenson表示,交易数据还只是所有数据的“冰山一角”。

eBay开始处理所有的客户行为数据。

大数据给eBay带来的挑战首先是,要提出正确的问题。Stephenson表示,要回答一个简单的问题,比如“昨天搜索某一关键字时,置顶显示的商品是什么?”,系统要处理50亿的浏览页面。因此,最重要的问题是要问关键的业务问题。

三个平台实现全面的用户行为分析

除了提出问题,Stephenson还希望网站能够运行情感分析、网络分析和图片分析,这些都难以在传统交易性数据库中实现。

eBay把它的数据分析业务分发到三个平台,第一个是Teradata提供的传统企业数据仓库(EDW)。Stephenson表示:“核心交易系统必须具有极高的稳定性。我们每天要处理50TB的数据,系统绝对不能停机。”

2002年,eBay搭建了13TB的Teradata企业数据仓库,提供高效的大规模并行关系型数据库。截止到目前,系统构建在上千个节点上,数据量已经增长到14PB。

说到用户行为数据,过去,eBay只能保留1%的样本,其他全部扔掉。

Stephenson介绍到:“对于提出的很多问题,我们事先并不知道,我们是根据客户的行为数据决定问什么问题的。大概有85%的问题是新问题。如果你只关注结构不关心数据,你就无法问出新问题,但如果你要存储所有的数据,数据量会大的根本无法分析。”

这其实是企业面临的一个困境,究竟应该扔掉一部分数据,还是把所有数据都保存。

为了解决这个问题,eBay开始搭建它的第二个平台。七年前,公司开始搭建能够存储所有客户数据的平台。Stephenson表示:”对于客户行为数据,我们希望能够通过大数据方法将其保留。“

eBay需要一个能够管理几百PB各种类型数据、只需要5个人就能维护、并且分析师可以轻松访问的产品。

公司和Teradata合作,开发出一款有几百个用户定义功能的客户应用。该系统运行在商业硬件上,应用自有软件,能够处理所有客户数据,廉价存储数据。

这就是著名的eBay开发的客户数据仓库Singularity。

该系统可以在32秒内运行临时查询。Stephenson表示,那是Hadoop处理类似的查询要30秒。

Stephenson表示Singularity在网站的“A/B测试”中发挥了重要作用,这可以比较出不同的产品组合中,哪种组合最受欢迎。eBay用它测试了很多东西,比如测试网站消费者是否喜欢网站显示商品大图。

这项技术还可以用于搜索提示,Stephenson称之为“搜索栏里的经济学家”。eBay可以根据用户已选择的话题或者已提出的问题,提供搜索查询建议。因为整个系统中,基本每一个问题都被问过了。

通过这样的查询,eBay销售者就可以了解到是否需要降价、包邮或提供其他优惠。

除了企业数据仓库和Singularity,eBay还使用了Hadoop,这就是它的第三个平台。eBay部署了两个2万节点的Hadoop集群,能处理80PB的数据。

有了这三个平台,eBay终于可以实现对所有用户行为数据的存储与分析。

责任编辑:彭凡 来源: 36大数据
相关推荐

2010-01-14 16:20:54

VB.NET三层数据结

2021-12-01 10:18:54

数据匹配大数据数据分析

2016-08-03 13:17:36

IBM

2022-05-09 09:00:00

Splunk数据分析工具

2017-03-23 12:51:56

互联网

2014-08-01 10:29:17

大数据业务模型

2011-10-20 12:52:54

IBM

2014-04-08 10:17:10

大数据华为

2023-11-09 16:12:06

大数据大数据堆栈

2018-10-31 14:32:53

数据中心网络架构

2018-02-08 11:10:08

云计算大数据安全

2010-01-11 09:25:01

千兆路由交换机技术

2012-11-07 10:56:06

大数据

2012-12-20 09:38:38

2017-11-29 10:34:38

2021-03-29 10:58:47

大数据智慧城市大数据应用

2011-04-19 13:53:41

三层架构

2010-01-08 16:11:08

第三层交换机

2011-08-17 11:24:41

数据业务网络干扰

2018-12-24 09:54:38

点赞
收藏

51CTO技术栈公众号