每天50TB 淘宝海量数据轻松漫游记

数据库
随着网络的普遍化,淘宝成了人们生活中不可缺少的一部分,淘宝实现了足不出户就可以买到所有需要的东西的状态,那么淘宝是如何实现这些的呐?淘宝是如何在oracle数据库和Oracle RAC产品基础上构建自己的数据仓库奇迹的?本篇文章将为你解决这些问题。

  导语:随着网络的普遍化,淘宝成了人们生活中不可缺少的一部分,淘宝实现了足不出户就可以买到所有需要的东西的状态,在电子商务领域,淘宝可谓是一支奇葩。它创造了中国***的电子商务网站,形成了一个包括买家、买家、物流、金融、广告、搜索在内的商业生态系统。据了解,淘宝目前每天的活跃数据量已经超过50TB,共有4亿条产品讯息和2亿多名注册用户在上面活动,每天超过4000万人次访问。如此巨大的数据访问量,使得淘宝数据仓库成为国内最忙碌的数据仓库之一。每天大约要处理几亿次的用户行为。那么,淘宝是如何建立和管理自己的数据仓库,保证其高效、安全地运行和管理的呢?在北京oracle全球大会上,记者访问了淘宝网技术开发部高级数据库专家江枫,详细了解了在oracle数据库和Oracle RAC产品基础上,淘宝是如何构建自己的数据仓库奇迹的过程。

  据江枫介绍,淘宝所有的商业数据基本上都是汇集到数据仓库来集中,然后进行运算,最终会根据不同的BI模型,得出不同的结果。通过对各种访问、交易、商铺信息以及客服信息等的综合处理,形成反映各种浏览、交易和用户行为、行业销售趋势方面的统计数据,可以给整个公司的决策提供数据方面的支持。因此,淘宝的数据库系统对整个公司来说,是至关重要的。同时,江枫也表示,淘宝的数据除了给公司内部用以外,也有提供给外部用户的。比如说淘宝2010年做的数据魔方产品,就是给淘宝的卖家提供商品的销售情况,行业的销售的趋势,给淘宝卖家带来更大的数据营销方面的数据方面的支持;另外还有一个比较大的数据产品是电子统计,即提供给淘宝卖家的一些电子统计,包括卖家的访客来源,访客喜欢什么时间段来,定了哪些商品等非常详细的订货的统计,这些信息也有助于淘宝的产品商户和卖家了解、分析用户行为,设计增值服务。这不仅需要数据仓库对海量数据进行更新、集中处理,也需要它能提供每天动态、实时的分析,无疑对于数据库系统是个巨大的挑战。

  淘宝网利用Oracle产品构建淘宝数据库的技术已经有4年的时间。并于2007年、2008年和2009年三次利用Oracle RAC 10g和Oracle RAC 11g对数据仓库系统进行了升级和扩充,将数据仓库部署在RAC系统之上。4年来,淘宝的业务每年是保持100%以上的增长速度,淘宝的数据库也在不断增长。2006年,淘宝的RAC系统还是4个节点,2008年,淘宝将之升级到12个节点,2009年的时候又把它升到20个节点,使淘宝在数据仓库规模每年成倍扩大的情况下,实现了数据处理和分析时效性的不断提升,应对不断增长的数据处理需求。

  同时,江枫强调,该数据库系统的实时更新已经可以做到每小时,或者是每15分钟,甚至可以做到秒级的水平——淘宝现在今年新开发的基于日期的复制已经可以做到秒级的实时更新数据到这个数据仓库里面来。

  对于淘宝来说,数据的安全性更加重要。江枫说,淘宝就是所有的数据库肯定都是在集成网络之后的,在外面任何地方都是没有办法访问到淘宝上数据库上的数据的。在监控上,淘宝有自己一整套监控系统在支持,包括我们防欺诈、防恶意的数据。在淘宝内部,专门设置了一个非常大的部门在做这个事情。

  目前,Oracle 11g产品也在淘宝的数据仓库系统内进行着测试,并将在不久的将来,在淘宝网的数据库系统建设中,发挥更大的作用。淘宝也会经过一次次的改进发展,更好的为网民们服务,当然收益***的还是网民们,让我们共同期待Oracle 11g产品在淘宝的数据仓库系统通过测试,早日上市。

【编辑推荐】

  1. 淘宝数据库专家深入解析数据仓库架构实施
  2. 淘宝专家:开始试用低功耗服务器
  3. 解析淘宝网二重钓鱼欺诈
  4. Oracle数据库系统使用经验
  5. 新推出Oracle数据库防火墙

 

责任编辑:迎迎 来源: csdn网
相关推荐

2017-02-10 09:51:23

2014-06-05 11:15:21

eBay大数据

2016-11-04 23:12:49

2013-06-14 17:09:48

容量宝德PR2414RS

2014-06-10 09:16:53

数据包

2011-09-01 10:54:28

OceanBase数据库海量

2021-12-12 09:26:59

网络攻击黑客网络安全

2017-05-23 17:58:22

存储

2011-06-01 10:41:09

海量数据库IO难题

2011-09-01 10:10:56

OceanBase海量淘宝

2023-06-14 07:25:48

HAMR硬盘存储

2017-08-17 09:33:02

大数据数据平台诸葛io

2012-02-08 09:14:50

亚马逊云存储云计算

2016-01-14 15:30:17

希捷

2016-02-25 10:46:33

数据排序数据处理谷歌

2017-11-03 14:44:20

对象存储

2016-03-21 14:14:18

戴尔

2012-02-16 09:39:56

Windows Ser

2018-11-19 15:06:57

华为云

2024-03-27 07:55:58

SpringRedis海量
点赞
收藏

51CTO技术栈公众号