阿里云,致力于打造互联网数据分享***平台,成为以数据为中心的云计算服务公司,在经历了飞天平台、5K集群,对外开放了很多云计算服务后,在今年7月,阿里云正式迎来了大数据服务,也真成兑现了以数据为中心的云计算服务公司的承诺。
阿里云总裁王文彬表示,“中国市场需要一个大数据公共服务,通过阿里巴巴自身验证后的大数据平台,阿里云开放对外的数据服务,让数据处理变成平民化的过程,让数据处理变成人人都可以使用的服务。”
ODPS是什么?
阿里云ODPS团队的工程师形象的将ODPS比喻为榨果汁的过程,把数据海洋里的水灌进ODPS,设定好一套参数,拧开水龙头,出来的就是鲜榨果汁!
ODPS(Open Data Processing Service,开放数据处理服务)是一项Web服务,用户不用花很多钱建立数据中心,就能分析海量数据。但是,值得注意的是,ODPS是通过SQL语句进行查询作业,因此,ODPS应该只能处理结构化数据处理,这一说法也得到了阿里云事业部高级专家、云产品产品经理汤子楠的认可。“ODPS最早是支持阿里巴巴内部的业务成长起来的,因此,分析的数据基本上都是交易数据和用户行为数据,大多都属于结构化或半结构化数据,因此也就决定了ODPS在发展最初专注于业务的需求。ODPS更擅长处理结构化数据,比较擅长处理半结构化数据,不能处理非结构化数据。”
但是如今,非结构化数据占据了数据的主要类型,更多的信息来源于视频、社交媒体等更丰富的渠道,将内部的结构化数据与外部非结构化数据融合进行分析,相信对决策优化更加有所帮助。对于非结构化数据的处理,汤子楠表示,未来,ODPS也会在非结构化数据层面做探索,但主要还是看用户的需求。
ODPS***层是Linux+PC Server,上层软件是阿里云开发的分布式系统软件飞天,基于Java的MapReduce编程框架,开发语言是C++。所有的功能是以RESTful API的形式对外提供,所以从系统边界上说,这层API隔离了ODPS平台和用户的系统。在经过了5年时间,阿里云的工程师写下了250万行代码,ODPS逐步完善,并且公测商用。
目前ODPS已经开放的SQL功能主要用于数据仓库和日志分析;后续还将开放UDF和MapReduce,支持用户编程的离线计算;ODPS准实时,支持交互式BI分析;ODPS流处理,支持实时计算等。
ODPS安全么?
开放服务的安全是用户最关心的问题,而大数据的公共服务也不例外?在ODPS发布时,阿里云没有披露ODPS的SLA,只是公布了一些性能以及价格。汤子楠告诉记者,ODPS的SLA(服务等级协议)分为两部分,***部分是存储,阿里云提供10个9的可靠性,保证数据不丢失。承诺的数据安全行主要有两点,一是数据放在ODPS中,绝对不会泄漏,也不会有其他人访问用户的数据,第二是阿里云不会看用户数据;第二部分是计算,阿里云不承诺用户提交的所有作业都能够计算成功,但是承诺因为阿里云或客户的原因,导致作业失败,是不会收费的。
在技术上,阿里云是如何保证企业数据安全呢?ODPS设计之初就是为了对外开放,做基于互联网的多租户的公共数据处理服务,所以安全性在ODPS的设计和实现中具有***的优先级。ODPS是国内首家通过了CSA-STAR和ISO27001两项国际云安全认证的公司,在各个环节都采纳了国际上***进的数据安全管理标准。ODPS采用了多项技术保证用户存储在阿里云的数据不丢失、不泄露、不越权访问;从管理上,阿里云内部对于ODPS的运维和运营人员的操作有严格的监控和审计,确保内部人员不会接触到用户的数据。
ODPS通过API提供服务,包括数据上传、下载、计算,所有API请求都是经过认证的,所有API请求都可以进行https加密。从平台设计和技术实现角度说,ODPS充分考虑了数据安全性,ODPS团队对于平台的优先级定义是数据安全性大于可用性大于规模的。
使用ODPS的门槛有多高?
虽然,阿里云想把ODPS打造成人人都可以使用的大数据服务,但是使用ODPS也需要一定的门槛。汤子楠强调,ODPS不是每个人都能使用,但是每一个做数据分析的人都可以使用。
对于用户的要求分为两方面,首先是要具有数据分析的技能,要精通SQL语言,或者是程序员,可以写Java脚本来处理;其次是还要有数据敏感度和对业务的洞察力。
但是,对于不会SQL语句以及编程的用户来说,是否就不能使用ODPS了呢?汤子楠告诉记者,“阿里云会开放一款基于ODPS的ETL(数据仓库技术)和BI(商业智能)工具,协助用户编写SQL语句,甚至不用SQL语句也可以进行数据分析,降低ODPS的门槛。同时,阿里云还会引入第三方合作伙伴,帮助没有数据使用能力的公司进行培训,协助他们搭建数据模型并且进行数据分析。”
使用ODPS在人员的技能上有要求,同时对产品上也是有要求的。汤子楠表示,使用ODPS***还是先使用阿里云的云计算服务,这样数据在进行分析前,可以通过阿里云内网,将数据从ECS(阿里云服务器产品)上传到ODPS中从而进行分析。若客户坚持使用自己的数据库,通过公网上传数据到ODPS中,数据安全问题得不到保障。此外,对于数据上传费用,用户也不需要支付,用户只需要支付计算、存储、下载三方面的费用即可。汤子楠表示,“用户***结合阿里云其他产品使用ODPS,其实是从降低用户成本、提高用户体验的角度给出的建议,用户也可以单独使用ODPS。”
阿里内部的登月计划
2013年10月,为了融合阿里小贷和支付宝的数据,支付宝希望ODPS团队协助他们搬家,将支付宝数仓业务从Hadoop机群搬到ODPS上,登月1号项目启动。2014年5月,登月1号项目顺利成功,小微金融服务的全部数据业务开始基于ODPS发展。
在2013年底,受到登月1号项目的启发,阿里数据平台团队联合技术保障部和集团各事业部,开始了一系列宏大的登月计划,致力于将搜索、广告、物流等多个BU的数据统一,未来ODPS将成为承载阿里集团全部数据的统一处理平台。“登月计划”共计划了20多个项目,涉及阿里巴巴和小微金服所有的事业部,覆盖集团全部数据人员,其牵扯人员、资源之多,在集团内部罕见。
从Oracle到Hadoop,阿里云解决了海量数据如何存储和分析的问题,阿里的数据业务不再受制于规模的瓶颈;从Hadoop到ODPS,更是一次质的飞跃,为后续大数据业务的开展扫清了障碍。