阿里的野心:大数据搬家记

数据库
作为中国最大的电商集团,阿里巴巴一直善于自省自查。大数据革命的旋风吹到中国,让阿里巴巴得以机会发现自己脚下土地的松动。按照“数据基础决定上层建筑”的逻辑,阿里巴巴祭出一系列数据迁移和优化项目——重塑阿里电商生态系统的生命之树正破土生发。然而,“釜底抽薪”般的大动作可是需要拿出十万分的谨慎和耐心。

高空任务

自曝其短、奋起补课的事儿还是静悄悄地进行。

当摄像师不断变换机位寻找最佳视角拍摄时,潘宝坤有点愤怒了。“你们出去!别拍了!等我们做好再回来!”他吼道。

这一幕发生在1月13日晚,在阿里巴巴杭州西溪园区,一个被称为“DNA项目”的秘密计划正进入最关键的时刻。为了记录关键的场景,阿里专门安排了摄像师跟拍了整个项目的关键环节。偏偏在这个时候,技术后台的代码出了点状况,人人都急出一身冷汗。潘宝坤是当晚技术团队的一员。

DNA项目的核心是阿里C2C和B2C两大电商交易平台淘宝、天猫对商品SKU(商品统一编号)的底层技术架构更新。它在天猫对商品类目信息重新梳理的“达尔文计划”的基础上延展而来。如果说达尔文计划是一颗苹果,DNA项目则是一棵苹果树,是阿里电商生态系统的生命之树。阿里集团IPO代号不是叫“阿凡达”(Avatar)吗?如果不做达尔文计划和DNA项目,它是不可能成为智慧星球的,马云的外号“外星人”也将名不符实。

大数据(Big Data)革命在美国有几种典型表现:亚马逊有个性化搜索A9,A即算法(Algorithms)的缩写。Netflix有76897种电影分类,内部叫“量子论”、“微标签”。Facebook有新闻收集系统。潘多拉电台有音乐基因工程。算法是一种神奇的掌握人类消费行为和内心活动的系统,如何将人工分类与机器智能推荐相结合,一直是互联网顶级之战。

简单理解,每个超市都有很多货架,商品分门别类摆放,如果标签混乱、指向不清,会影响销售效率和购物体验。而作为中国最大的网上商店,淘宝从2004年5月诞生起,平台上的每一款商品都有一个特定数字代码,2008年在淘宝内部培育的天猫延续了这种技术架构,十年积累,阿里电商体系里的商品已经超过了20亿。与此同时,商品信息的混乱、冗余、不规范越来越明显。

一个典型的例子:在苹果公司尚未推出iPhone 5c之前,淘宝上居然有人卖绿色版iPhone,“这让人哭笑不得,伤害了淘宝系多年建立起来的信任度。”阿里巴巴共享事业群副总裁王曦若对记者说。

与美国的eBay、亚马逊相比,淘宝的商品类目基础架构和分类管理不是一开始就标准化的,部分SKU的属性值(如规格、型号、颜色、尺码等)可以由卖家自定义编辑,难免会乱七八糟、混淆用户、甚至发生SKU作弊行为(比如将常规商品和配件辅料、瑕疵品等放在一个宝贝链接里出售)。

对于淘宝、天猫来说,商品信息数据系统就像基因之于细胞那么重要,它决定着所有线上交易的进化程度:如果类目规范整齐,交易就简单快捷高效,进而推动自我革新;如果系统杂乱无章,玩不了算法和个性化,影响用户体验,甚至给阿里自身拖后腿。今年3月,马云内部邮件称:云和端(Cloud +App)将是未来移动互联网的关键,阿里十年的目标是建立DT(Data Technology),数据时代中国商业发展的基础设施。

王曦若将阿里从达尔文计划到DNA项目的最后一步操作称为“在飞行着的飞机上换引擎”,来形容重整商品类目的风险之高和压力之大。她是DNA项目的总负责人,带领一个近百人的团队。

整个项目的关键是底层后台的数据迁移,他们需要将阿里商品信息开发团队做好的全新模型,链接到无时无刻不在使用的淘宝、天猫平台上。而所有这一切,得稳定平滑过渡,不能惊扰卖家和用户。

商品信息“进化”

瘦死的骆驼比马大。阿里后台“病了”,商品类目信息出现了“病菌”,但它仍然是中国最大的电商平台,以沃尔玛+亚马逊的模式,以电商、金融和数据平台在中国经济扮演着重要的角色。

阿里用来整理和存储商品信息的系统是一个树状结构,在内部叫“类目”。作为第三方交易平台,阿里把商品分成70多个大类,在每一个大类下分出很多子类目,子类目下又有一层层的分类。就像一颗枝繁叶茂的大树,在树干分出很多枝桠后,叶子已经难以计数。

没人否认这套系统的重要性,但即便在阿里内部,对它有了解的人也不多,因为它在技术底层,不直接影响前端交易,不像阿里每年双11的创纪录销售额那样吸引普通人的目光。

每年双11交易额都刷新纪录的天猫,是阿里集团最先推行“达尔文进化论”的部门。2012年5月,天猫更名刚刚4个多月,就被发现有了“病症”。技术人员通过后台看到,越来越多的买家留言说很难在天猫上找到自己最初想要的商品,无论通过类目(比如服饰、电器、化妆品)还是搜索——这是天猫商品的两大流量入口。要么指向不精准,要么信息过于庞杂,你需要手动翻阅好几页信息页面。

对于刚刚打响名号的天猫来说,这并不是件可以忽略不计的小事。马云对天猫的期许是,专注做B2C业务的天猫就像挺进大别山的刘邓大军,是整个阿里集团在B2C领域的正面作战部队。“B2C是比C2C更高级的一种零售业态。”原淘宝商城总经理、独立电商分析师黄若告诉记者,B2C平台应该是一个Shopping Mall,商品丰富而正规,信息透明而规范。

电商发展早期,商品与信息组合的重要性被忽视。亿欧网联合创始人、电商分析师黄渊普对记者说,随着商品数量增加,其组合方式是电商精细化运营最重要的体现之一。同样的商品有多种信息描述,既浪费各方资源,很多时候也助长了商品的不实宣传。电商平台方有必要把类目规范化,这是电商购物回归产品本身,促进公平竞争的必然措施。

王曦若着手让团队一点点去核查,试图厘清到底是哪个环节出了问题,最终商品信息的不确定性被定性为核心问题。他们发现,即便是在天猫上,同一款商品的信息也未必相同,比如一款绿色的保温杯,有的卖家描述为“淡绿色塑料保温杯”,有的则是“浅绿色塑胶保温杯”。

“某种程度上,天猫已经不像个Shopping Mall了。”王曦若说。天猫的商品信息延续了淘宝的风格,由卖家填写,天猫只负责简单审核(商品基本属性准确以及符合法律法规),这就造成了商品描述五花八门,在后台的“仓库”不便管理,前端“柜台”信息混乱,买家找不到想要的商品,卖家销售库存管理日益繁杂。

王曦若把问题报告给时任天猫总裁张勇。张勇在高层会上说,一定要把问题尽快解决掉。他们花了几个月调研讨论,张勇拍板决定启动信息重整项目,但当时还没起名字。“要不就叫达尔文计划,代表着我们商品信息的一种进化?”王曦若的提议得到赞同。

阿里共享事业部派出了两个团队负责达尔文计划的运作。天猫产品部的何家琼被抽离出来,组织了一个10人团队,叫“达尔文基础运营团队”。2012年8月,他们从手机和化妆品两种相对简单的商品开始,正式启动达尔文计划。

从天猫开始

习惯一旦养成很难改变,更何况你动的是利益。阿里先在天猫而不是在淘宝做商品类目重整,就考虑到它平台上大多是知名品牌入驻,调整和规范的成本相对低,不至于扰乱淘宝的卖家信息海洋。

2012年8月,在天猫的后台系统,手机和化妆品卖家都看到了一则关于达尔文计划的公告,详情及需要卖家怎样配合。如同总裁张勇谨慎的行事风格,天猫该项目运作也小心翼翼。运营团队先进行调研,一是对淘宝天猫卖家和买家数据收集,内部也与阿里负责类目的管理者(俗称“小二”)沟通,二是向国外同行亚马逊和eBay学习,三是对淘宝十年来经验总结。

闻思图书专营店店主温兴歌曾经为这样的问题纠结:某一本书的内容既涉及商业故事,也属于旅行见闻,到底放在商业子类目下好卖,还是放在旅游子类目下更好卖?达尔文团队围绕一个基础的问题开展:某个商品的类目理想中应该是什么样子的。他们讨论这些差别,一步步涉及到最基础最琐碎的问题:为什么商家会放错类目?商家什么情况下会设置错的关键字?每个商品的颜色、尺码、款式都用一串独立的数字来表示,为什么还信息混乱?……

天猫的运营团队给平台上手机和化妆品类目的前10名卖家打电话,介绍正在进行中的达尔文计划,征得对方同意后,抛出一系列问题:商品的材质是什么?一共有几个型号?多少种颜色?一般每个月生产多少销售多少?放在天猫仓库又有多少?……“这些看似不太相关的问题,命中的才是商品最核心的信息。”何家琼说,商品信息最终是为交易服务。

第一轮商家调研完成后,天猫团队坐在一起总结,得出一个令他们震撼的结论:天猫的类目结构已经远远不能满足行业的发展状况了,很多商品早就更新换代,或者丰富了款式型号,类目却还是2008年最初建成的样子。

他们一鼓作气开了卖家沟通会。2013年初,温兴歌从浙江金华赶到杭州,在位于西湖国际大厦的天猫办公室参加了图书类目的卖家沟通会。会场有20多个图书经销同行,一个天猫图书小二,一个达尔文基础运营团队成员,一个记录员。“讨论的话题是以后我们怎么填写图书信息。”温兴歌说。以前都是卖家自由填写,天猫简单审核即可。现在天猫提出他们会为每一类商品设置多种属性,让卖家进行选择而不是自由填写,比如给名人传记设置框架,中国的还是外国的,男人还是女人,政治的还是商业等,卖家在选项里勾一下就行。

因为这涉及到未来自家店铺的生意,卖家们都畅所欲言,提出种种可能的困难或建议方案。他们也反驳天猫的某些做法。“套装书”就曾陷入讨论僵局。天猫认为有统一条形码、版权页上印着丛书名的系列书才算套装书,卖家们则坚持可以自由搭配,把两三本好看的书组合在一起就行,无需考虑是否同一出版社、条形码或系列丛书。温兴歌把不同出版社出的《育儿圣经》和《睡前胎教故事》组成套装卖后,两本书销量都比以往增加近30%。

沟通会效果明显。天猫图书的子类目调整成既有天猫定义的套装书,也有卖家自由搭配的“自由组套”。毕竟天猫是个交易平台,达尔文计划在规范商品信息的同时是为了提升交易效率和品质。这种既要规范有序、又不影响交易销量的做法,在其他类目后来的操作中也不时出现。

王强在天猫经营一家海尔授权网络店,是最早参加达尔文计划试点的商家之一。比起以前上架新商品需要自己费尽心思去填写商品描述信息,现在从天猫的库中直接调用,“我只要填价格、库存数量等信息就可以了,对天猫店的维护更简易了。”

但由于品牌卖家的定位营销策略不同,他们对达尔文计划反应也不一致。何家琼就遇到一个问题,耐克和阿迪达斯对天猫商品描述的要求有不同意见:在耐克的商品描述中,一个商品下面既有尺码选项也有颜色选项,而阿迪达斯的只有尺码选项,如果要标识颜色,代表商品属性的是另外一串数字。

“这背后有销量的博弈。”何家琼说,在淘宝天猫的搜索因素中,销量占很大权重,核心表现就是按照商品的销量自动排序。以慢跑鞋为例,耐克慢跑鞋的销量是其各种颜色之和,阿迪达斯慢跑鞋则是按红色、蓝色、紫色等不同销量各自呈现。在阿里平台有个现象:用户搜索“慢跑鞋”时,耐克因其销量高出现在较为靠前的页面,阿迪达斯则会靠后。

两个品牌都是天猫的重要卖家,何家琼不敢掉以轻心,亲自给对方负责人及前5名的专营店卖家打电话沟通。耐克希望达尔文计划继续保持原来的商品描述方式,阿迪达斯则分成两派,官方旗舰店希望商品描述和阿迪达斯官网保持一致,不同颜色的商品有不同的属性值;专营店卖家考虑销量,希望取消颜色属性值,让买家在统一款号的商品下自行选择颜色。

目前,达尔文团队还没想到合适的方案来解决这个问题。何家琼的设想是,对于服装服饰等非标准化商品(非标品),也许可以放开一些弹性空间,天猫负责较大比例的类目管理,卖家根据自身情况进行个性化类目描述。耐克和阿迪达斯两家天猫旗舰店负责人拒绝就此发表意见。

改变搜索逻辑

2013年,天猫陆续完成了对数码、家电、手表等标品,服装、化妆品、农产品等非标品的类目重新调整。

普通用户感受到的是在天猫购物更快速准确了。王曦若说,“如果用户的搜索信息足够明确,我们甚至能提供唯一符合要求的商品。比如输入iPhone 5s,搜索页面中心只会出现一款手机,不再有手机壳、配件等无关信息,为用户们节省大量时间。”

如此精准的推送来自天猫搜索系统的一套数据算法。当用户输入iPhone 5s时,搜索后台会找到天猫卖家所有的iPhone 5s手机,根据销量、人气、价格、顾客评价等算出综合得分最好的一个,系统再次评估后推送给用户。这是一套相对公平的算法,面向所有卖家和用户。

在类目之外,搜索是天猫最大的流量入口。过去5年,天猫搜索依赖的是模糊词汇,“你输入一个关键词,后台系统会帮忙匹配很多商品,只要这些商品的标签中含有这个关键词。”天猫产品运营部产品总监胡秋根对记者说。他是天猫搜索业务的负责人,在达尔文计划运作过程中,搜索也配合商品信息的改变有了突破。

模糊词汇匹配的好处不言而喻:尽可能“一网打尽”把相关的商品展示给用户。“余杭区的马小姐想找一件真丝无袖连衣裙,理论上她只要输入这7个字,不管翻多少页,她都能从中找到自己想找的那一件。”胡秋根说。

这其实是历史遗留问题,跟天猫前期商品信息的模糊混乱息息相关。达尔文计划使天猫补上了商品类目规范和升级的课,阿里愈加在大数据应用上领先京东、当当、苏宁等竞争对手(这三家拒绝接受采访)。如今在天猫,你搜索一件商品,其展示结果从原来的成百上千件,变为聚合成确定的一件或几件。

“搜索逻辑的变化对卖家影响很大,让很多卖家改变了运营逻辑。”以前很多卖家为了销量,会为商品添加很多标签,现在天猫更青睐推送信息精准的优质商品,卖家们尽力运营好某一款或几款主打商品。“爆款”在天猫将成为过去时。天猫搜索不再推送多种同款商品给用户,达不到卖家们跟风的效果。胡秋根说,“这也更加符合天猫的定位,这个平台的核心竞争力是品牌,而不是只以销量取胜。”

“釜底抽薪”

当达尔文计划逐渐开花结果时,一项更有价值、同时也更有难度的项目也同时交错在开展。它触及的是整个阿里电商平台的底层数据,是阿里发展大数据业务和未来DT目标的根基。

2013年2月,这个项目由阿里共享事业群的商品技术开发平台团队提出。该平台负责人赵营苗告诉记者,从持续使用十年的经验来看,淘宝平台的“树形结构”对于卖家和买家都简单易用,但是随着环境变化,越来越多的新商品出现,有的难以归类,这棵“生命之树”不再强壮如初,“也就是说,现有的结构类目已经跟不上行业的发展了,跟时代比起来落伍啦。”

阿里运营部门的梳理结果更夸张。“除了国家法律政策规定不能交易的,枪支弹药毒品不能卖,在淘宝上,你注册个卖家账号,什么都可以卖。”DNA项目运营负责人朱春勇说。赵营苗承认,“这就是我们的商品数据库模型出了问题,改变迫在眉睫。”

在阿里大数据委员会会长车品觉看来,这不是阿里一家公司的问题,整个电商行业其实都存在商品信息管理的难题,在传统零售行业,这也是至关重要的一环。“大数据应用中最重要的三个因素是数据的可实时性、数据的可解释性和数据质量的准确稳定性。DNA项目涉及的是商品信息的准确稳定性,对于阿里大数据应用来说是基础而且重要的步骤。”

2003年5月,淘宝创立10周年,每个部门都对业务做了大梳理。历经两三个月,商品开发团队拿出了可行的整体项目方案。他们决定先从手机、3C产品、数码配件、酒类、保健品5个类目开始,“相对其他要迁移的69类商品来说,这些类目商品数据相对标准和规范。”

但意义如此重大,项目开展时间却迟迟未定。在阿里内部,价值观和企业文化影响每个员工,“让天下没有难做的生意”是统一口号,但是每个业务线都有自己的业绩任务,短期内并不一定合拍。从一开始,DNA项目被各个部门接受的程度也不一样。

时任天猫总裁的张勇看完方案提了两点意见:天猫将支持项目的进展,但此项目不能开展于2013年11月11日之前。后一条用意很明显,双11是天猫最重要的消费节点,这一天的交易额代表着阿里交易业务甚至中国电商市场的繁荣程度。万一DNA项目出现任何差错,都会让这一天的阿里颜面扫地。

时任淘宝负责人张宇也表态支持项目开展,她认为此事对于淘宝系的交易平台至关重要,但有冲突的是,她希望保持淘宝的强势,比如能够整理清晰的类目一定要做到规范标准,但对于暂时理不清的类目,她希望从淘宝剥离出去的天猫能够遵循淘宝的规则。

阿里的搜索、广告、聚划算等业务部门的意见也各自不同。特别是广告部门,年底要冲业绩,极力希望大搬家推迟。最终,王曦若和赵营苗的团队用了两三个月时间,说服集团高层拍板决定2014年初启动DNA项目。

朱春勇带领的运营团队是2013年5月加入DNA项目组的。彼时移动互联网船票战争夺已经火热,腾讯的微信如日中天。淘宝系的后台体系是以PC端为基础构建的,整体结构谨慎安全,但在以轻和快为标准节奏的移动互联时代,它显得繁琐和沉重。朱春勇说,“我们希望未来淘宝的商品信息架构是轻便和灵活的。现在人人都可以是电商卖家,比如我家院子有棵石榴树,可能就是一瞬间的想法,我用手机拍下来,发到淘宝上去卖。”

DNA项目团队有30多人,分为两批:一批是对商品或者卖家比较熟悉的人,及时和卖家沟通,把商品相关行业的现状和趋势摸透,为技术后台重构数据库做准备;另一批是对淘宝系产品比较熟悉的人,他们有良好的技术背景,做过产品经理,能从产品和用户体验方面对新的商品数据库提供意见。

淘宝的类目数据梳理也交给了朱春勇的团队。在看似完备的类目体系上,他们发现了诸多琐碎问题,比如材质为牛皮的商品,有女装,有男装,有包,有鞋等,这些类目之下的牛皮属性值都不一样,商品数据就因此多出几串不必要的数字,把整个商品数据库撑得庞大冗余。“把这些混乱的数据整理出来,在技术层面是很难实现的。我们都会人工去做,人肉输入和整理。仅仅这项工作,就花费了整个团队半年多的时间。”

接下来,他们跟行业专家交流,还跟商标网、国家物品编码中心等专业机构交流,要把淘宝系商品信息做得既有数据化属性,又符合国家和行业规范。卖家的意见也非常重要。每一类的商品信息数据化之前,运营团队都会联系这类商品卖家集中的区域,做一两次集中访谈。

2013年12月25日,圣诞节,阿里西溪园区布满圣诞树和彩灯,很多员工放假回家过节,但阿里DNA团队却没有这项“福利”,DNA项目最后也是最重要的环节——更换技术后台将于2014年1月13日晚正式启动,他们必须加班加点。

阿里的野心

孔柏汉的神经一直处于紧张状态。从2013年12月25日开始,他所在的小组开始负责淘宝商品数据订正,也就是把整个类目的商品属性值进行重新更改和修订。在操作期间,卖家不能在后台发布或更改商品信息,但买家可以正常交易。然而一旦订正失误,整个类目系统都会瘫痪。

整个淘宝系共有20亿商品,每个商品都有自己的独立代码,一旦出现两种商品代码一致,可能整个类目都会冻结瘫痪。赵营苗说,如果发生这种情况,就会影响到前端用户的交易,这会是很严重的事故,必须做好各种预案,没人敢掉以轻心。这不仅仅与阿里整个平台有关,更关系到数百万的淘宝系卖家、超过5亿的注册用户,一定不能出问题,“一定要把这个飞机引擎换好。”

1月13日之前,齐国梁所在的5人小组负责技术底层风险点的梳理。阿里集团涉及交易的20多个业务部门梳理出来300多个风险点,齐国梁小组的任务就是拿出规避这些风险的预案。“到了1月13日,我们的风险点梳理工作完成,又立即投入数据迁移。”

好在这场不为人知的硬战顺利完成。1月13日到1月30日,历经每晚从7点到次日早晨7点的奋战,手机、3C等5大类目的数据迁移全部完成,而且没有一次影响平台前端的购物交易。阿里的生命之树换上了部分新的血液。

2月12日下午,杭州下了2014年的第二场雪,阿里商品开发技术平台团队所在的5号楼“九天阁”会议室,王曦若拍着赵营苗的肩膀说:“哥们,今晚开始又是一场硬战,让兄弟们加油啊!”

12个日以继夜的紧张过后,商品开发技术平台团队终于松了口气。赵营苗站在DNA项目会议室,对满脸倦容的20多个员工说:“兄弟们,回家睡觉吧,我们完工啦!”

至此,淘宝20亿商品的信息数据迁移全部完成。“从用户的角度来说,这个项目还暂时感受不到变化。我们第三个阶段就是修订子类目,项目完成后,用户在使用搜索和类目时就会有新体验,到时候淘宝商品将一改繁杂混乱的状态,以一种相对整齐、规范、清新的姿态出现在用户面前。”赵营苗说。

阿里并不止于做达尔文计划和DNA项目,更有野心打造整个中国电商行业的标准商品体系,甚至有一天淘宝天猫的商品信息库不仅服务于自身,也可以服务到站外,服务到愿意拥抱互联网的传统企业。朱春勇说,“比如有一个卖家,他在线下有自己的品牌、专卖店、工厂,同时他也代理别的品牌,他可以做淘宝集市C2C,他也可以给天猫供货,他可能还走京东、当当的渠道……其实整个互联网目前没有一个统一的商品标准。我们做DNA的愿景,就是建立一个全网甚至线下都能用的统一的商品信息体系。”

达尔文在其进化论的代表作《物种起源》里写道:“芽由于生长而生出新芽,这些新芽如果健壮,就会分出枝条遮盖四周许多较弱枝条,所以我相信,这巨大的‘生命之树’在其传代中也是这样,这株大树用它的枯落的枝条填充了地壳,并用它的生生不息的美丽的枝条遮盖了地面。”

责任编辑:彭凡 来源: 彭博商业周刊
相关推荐

2013-04-01 11:17:43

Foursquare

2013-06-02 21:53:51

阿里巴巴Windows Azu淘宝

2017-08-25 10:26:04

业务逻辑程序员

2013-05-29 10:42:59

阿里巴巴阿里巴巴菜鸟大数据

2013-01-22 10:03:21

阿里云大数据

2012-12-27 14:33:45

阿里云云计算

2016-01-20 12:07:49

阿里云云栖大会大数据

2015-08-18 10:40:18

马云阿里巴巴

2013-06-09 10:22:46

大数据时代阿里巴巴数据闭环

2021-01-08 16:10:20

大数据数据中心Meta 数据集

2009-07-23 19:01:26

Linux服务器IT

2014-04-14 10:02:48

大数据

2017-01-07 11:42:16

2013-04-15 10:14:45

阿里巴巴大数据

2015-06-24 16:09:06

2015-03-02 16:33:25

大数据产品经济云图大数据

2015-08-30 16:20:34

阿里巴巴天池大数据涂子沛

2013-05-30 16:38:31

大数据网络数据流量分析网络数据

2013-06-03 10:07:32

大数据发展演进

2014-11-07 09:58:59

Apple Pay苹果支付
点赞
收藏

51CTO技术栈公众号