专访UCloud王冬冬：UDDP如何在大数据下抛头露面

作者：林师授 2014-10-28 13:35:58

随着移动电商、社交网络、智能硬件的强势加入，通过各自数据规模与维度的指数级增长，除了催生数据生态系统各个环节的技术模式与标准变化，还催生更大的市场和利润空间。而这些TB至PB级的海量数据在存储、处理、分析、检索技术和成本上对很多中小型企业面临着很高的门槛。在这些不同环节的商业需求上正在孵化新的急速模式和方法以实现新的商业模式。

小编认为，大数据与云计算已经在野蛮的演变为一个整体。

所以，在数据处理方面Hadoop无疑是更多企业的首选。这脱胎于GoogleMapReduce的大数据分布式处理架构，为解决搜索引擎海量数据的处理和存储问题而骄傲的诞生，许多的企业也围绕这个架构产生：今天的主角UDDP也是如此。

UDDP能够帮助用户轻松、快速地处理TB甚至PB级的海量数据。主要应用于数字营销、数据分析、商业智能、科学模拟等领域。同时也是基于 Hadoop 开源框架开发，包括 MapReduce 和 Hive。记者通过对UCloud分布式数据分析平台负责人王冬冬的专访，从对UDDP技术应用层面的剖析，到其在市场中的竞争优势以及相关的应用场景，让用户对UDDP有一个新的了解与参考。

[[121760]]

王冬冬，ucloud分布式数据分析平台负责人，先后分别在盛大和腾讯工作，2012年初离开腾讯加入ucloud。强逻辑性思维方式，热爱互联网。

以下是51CTO记者与王冬冬经理的专访录音整理：

记者：UCloud凭借其混合云产品和云内存储产品UMem入围2014年度互联网最佳技术创新奖，UMem的自主研发Key-Value内存存储系统与常见开源的Kye-Value分布式存储系统有哪些不同？性能和兼容性如何？

王冬冬：UMem是我们自研的一个Key-Value内存存储，它最大的一个特点是分布式设计的，它在容量和性能上可以突破单机的一些限制，同时UMem还做了主从热备，主机故障的时候，它可以自动切换到从机，比其他单纯的Key-Value存储更加可靠。

UMem可以兼容绝大部分的memcached和Redis的协议，用户应用几乎是可以无缝的接入进来。性能也是根据用户申请的容量来控制，我们现在目前是每1G大概支持4000QPS，申请的容量越大，你可以获取的能力就会越大。

记者：前两段时间SQLite刚发布了2.8.7版本，比上版本性能提升了50%以上，有没有考虑应用到UDDP中？

王冬冬：关于您说的这块，我们公司有另外一个产品对应，叫UDB。SQLite它是一个非常非常优秀的轻量级的关系型数据库，它本身是没有服务器进程，存储在单一文件中，支持跨平台性。但是SQLite的缺点其实也是非常明显，它不支持很高的并发量和很大的数据量，数据维护也是一个非常困难的事情，对SQL的标准的支持也是不够全，缺少用户管理，所以在一些很小的中小型站点上应用可能会比较合适，但非常不适合大规模的应用。

目前我们本身的UDB这个产品，也会推出一些比较小的UDB去适应比较小的中小型站点，暂时不考虑把sqlite应用到我们的udb产品中。

记者：了解，UCloud近期推出旗下大数据产品UDDP，基于Hadoop开源框架开发，主要应用在哪些场景？有无自主研发或创新优化，和其他分布式数据处理产品的优势在哪里？

王冬冬：Hadoop最初的诞生是谷歌发布的gfs、mapreduce两大论文的实现。本质它是一个分布式计算平台，在当时是为了解决搜索引擎海量数据的处理和存储问题，所以在搜索这个场景是非常合适的。

随着互联网行业的发展，Hadoop现在已经广泛应用于各个行业，比如说一些在线广告、在线旅游，或者一些电子商务等等。包括一些传统行业，也因为互联网的渗透，开始慢慢使用起来，比如说一些商场零售、图像处理、医疗保健等。

我们大数据产品UDDP是基于Hadoop的生态系统，采用的是多用户共享集群的一个方式，在权限、安全方面做了很多的工作，包括从底层的网络就进行了用户的隔离，在这方面做得很多。

另外在任务调度、资源管理方面，我们也加了一层的设计，可以灵活的调度用户提交过来的任务，对它进行优化。同时我们也结合了我们自身的云计算平台，在保留用户原来习惯的情况下，方便用户进行海量数据存储计算，而不需要考虑集群的维护，降低用户的使用经济成本和时间成本。

记者：UDDP提供了MapReduce 和 Hive，一般来说MapReduce从时间，数据量，计算量上来看，都会优于Hive。而Hive的开发和维护成本却远低于MapReduce，对于用户不同场景的需求，在转换的过程当中UCloud有提供哪些解决方案？

王冬冬：我们在帮助用户应用一些大数据的时候，也的确发现了一些用户对mapreduce使用感觉比较复杂，包括对Hive使用，也会觉得比较复杂。我们已经在针对性的开发一些周边的工具，比如说数据源同步、MapReduce算法模块、数据流水线等一些工具，从MapReduce场景转换到Hive这样的工具，我们后续也会有可能提供。

通过这些周边工具的开发，能够很方便地让原来不太了解的用户快速入门，在整个数据产生到最终的应用的过程，快速达成目标。同时我们也会和第三方的一些公司、社区进行合作，在一个良好的生态下为用户提供这些服务。

记者：咱们还是在两者之间开发一些周边的工具，提供给用户，应该说是简化他们的一个操作流程。然后我之前也看到了您演讲的PPT里面UDDP好像整合了HBase，能介绍一下整体的设计是怎样的？

王冬冬：UDDP在整合HBase，现在已经在公司内部进行测试，预计很快会对外发布。UDDP整体的系统，它的底层存储目前是用HDFS，后续会和我们自己的存储产品进行整合。在存储之上，我们会提供两套的分析框架，一个是MapReduce，一个是Spark。

另外同时我们也会提供一些HBase这种列存储，在MapReduce和Spark之上会衍生各种的工具，比如说现有的一些Spark SQL……，整个集群还会有专门的安全和权限管理系统，用于用户权限的管理和数据的安全。同时还会有任务调度、监控，去调度优化用户提交的任务，保证集群在一个非常好的状态下去运行。

记者：在大数据环境下进行数据分析，更多人都会选择Spark。刚才您也说了，会集成Spark，专门做一些分析。大家都知道它是基于内存上面进行运算的，这样的话可能处理的数据会有限。在这方面，你们是如何解决这个问题的？

王冬冬：我们对比了MapReduce和Spark，一方面Spark比MapReduce更通用了，因为Spark提供了比MapReduce更多的数据集的一个操作类型，比如说MapReduce只是提供Map和Reduce这两种操作，Spark还会提供一些filter，union，join，sort等等操作，这会让编程模型更加灵活。

另外一方面，MapReduce在一些反复迭代的场景比较慢，它慢的原因就是MapReduce每次处理它的中间数据，要直接写在HDFS上面。那么Spark是建立在一个统一抽象的RDD上面，中间数据是写在内存当中，在整个迭代运算中会非常有优势，非常有效率。

刚才您提到的内存有限，实际上加载到内存中的这个数据，只是整体数据的一个子集，是它运行中间的数据或者是一些Cache的数据，并不一定需要同等规模的内存来支持。Spark在一些细节的地方，就是说如果你内存不够的情况下，也能够很好地处理。

记者：在传统的BI对于数据仓库的一般规模结构化，数据进行处理分析和提供商业化商业智能的时候，都是基于Hadoop。那么就是说基于Hadoop上面UDDP的战略级别的数据是怎么样的一个形式？

王冬冬：从目前数据类型的分布来看，全球不断产生的新数据，非结构化的数据增长是远远超过了结构化数据的，而且这个差距会越来越大。那么传统的数据仓库很难解决这种非结构化数据的一个分析，在这方面是我们基于Hadoop的UDDP它所擅长的。

当然结构化的数据需求是一直存在的，传统BI之所以依赖这个数据仓库，本身是整体的机制已经非常稳定和成熟。UDDP在针对结构化数据，一方面会和我们内部的产品进行结合，来提供服务，比如说上面提到的关系型数据库产品UDB，另一方面，UDDP也会把数据流整个的生态给建立起来，会提供一些数据流的工具，提供数据对接的接口，这样让用户可以享受大数据平台海量分析能力的同时，不改变太多用户的使用习惯，是这样的方式来解决。

记者：刚才您说UCloud上面也有一个叫源数据，就是UDB，它跟UDDP之间会不会有一些整合进去？

王冬冬：会得，这个一定会，比如说我们数据流的一个工具，我们当前的一些用户的数据，是一个非常海量的非结构化数据，但是对于一些数据的运营人员，他们来看这个数据的时候，还是希望以表格、曲线图这样的方式来看。这部分数据分析过后，可以去落地到udb里面，然后它的一个报表整体可以基于udb继续去开发，去展示。

记者：刚才咱们也说了，UDDP集群是基于Hadoop集群上面做的。在这基础上有哪些优化和创新？它们之间的关系是什么样的？

王冬冬：UDDP集群基于Hadoop，是在Hadoop这个生态圈内，会把Hadoop成熟的一些思想、方法、工具集成进来，同时也会和我们云计算进行结合，提供弹性，更低成本的海量分析服务。另外，我们还会深入到用户场景中，把很多原来在每个用户都需要处理的繁琐的数据流程，通过图形化，工具化提供给用户，让用户基本上只需要定义好数据输入、输出，就能得到想要的数据。通过建立大数据的生态圈，也让用户可以共享更多人已经实践了的经验。

记者：主要还是提供一些比较简洁明了的，图形化的一些界面给用户去使用。

王冬冬：对。

记者：在大数据爆发的时代，传统行业如果通过大数据去提升它的竞争力，UCloud这块的一些案例您能分享一些吗？主要是基于那些方面？

王冬冬：其实在互联网行业，数据驱动业务这样的一个模型是比较成熟的。比如说我们现在的游戏都是通过数据分析，去分析新用户的增长，转换率等等，它可以直接帮助我们改进游戏的一个设计和运营。但是传统行业在这方面运用其实是比较少的，他们内部虽然沉淀了很多的基础数据，但这些数据是静止的，是不流动的。

我们通过大数据的应用，让这些数据可以流动起来，可以和自身的业务结合起来，然后去推动业务的增长。比如我们看现在的一些零售行业，就是非常棒的例子，通过收集用户的信息，通过用户的反馈，去改进他们整个的零售运营。

那么UCloud大数据产品刚发布不久，已经和一些在线教育、金融还有视频的用户在接入。

记者：我了解咱们UCloud好像大部分都是基于游戏公司，以后的方向可能会跟在线教育这一块，会提供更多的支持？

王冬冬：在线教育是我们非常重视的一块，以后会提供更多支持。

记者：刚刚我们说的可能就是基于UCloud层面，那么在UDDP平台上，它在传统行业是如何应用的？比如您刚才也说的在线教育可能不算传统行业，我们更多的是医疗、交通监控等，传统行业其实本身是有很多数据的，这些数据如果我要迁移到UDDP上面，我们这边有提供一些什么样的方式或接口？

王冬冬：对于传统行业，其实他们本身的大数据技术的积累是比较薄弱的。我们目前主要提供的还是一个数据分析的平台，针对于这些不同的用户，我们还是有一些周边的工具支持，比如说用户需要迁移，我们会提供一些迁移工具，比如他原来的数据放在Oracle，我们会提供一些Oracle迁移到我们的分析集群上的数据；如果他们原来是文本，或者是一些其他的关系数据库或者是另外其他的介质，那么也会提供相应的一些工具来支持到，用户在迁移数据的时候成本就很低。

另外一个方面，其实真正在大数据应用，我们帮助用户更多的实际上是用户去了解这个大数据，去真正能够感受到大数据到底能帮助他们做哪些事情，同时我们也会对他们的技术人员提供技术指导，让他们能够很快地去适应在大数据分析的场景下，在我们的大数据平台上面怎么把数据整体给运转起来，得到他们想要的数据。

记者：刚才你说到Oracle数据库，UDDP现在好像我看到只支持两款数据库，分别是MySQL和mangoDB，后期有其他更多的吗？

王冬冬：我们现在其实提供产品主要的一个依据，一方面是用户的使用非常多，一旦用户达到一定规模的时候，我们就会在这上面去提供相应的一个产品，比如说Oracle，其实我们在内部也会讨论。

记者：Oracle可能就是对于一些传统行业用的比较多，大量的，这是我个人的理解。

王冬冬：对。

记者：在数据存储上我大致了解几类，像通常的key-value数据库，文档型的数据库mongodb，列式分布式数据库HBase等等，对于不同的业务，在UDDP上面是如何考量和选择的？

王冬冬：我们提供的存储还是根据用户实际的应用场景来看，比如说mangoDB在游戏这个行业里面，应用的是比较多。那么当我们主打的一个行业是游戏行业的时候，我们会优先考虑把mangoDB给提供上去。

记者：像咱们的一些潜在用户，就是可能他对咱们的产品不是很了解，因为之前基本都是使用过咱们产品的用户，他才会给反馈。对于一些潜在用户，有可能没有用到您们提供的这两款数据库，结果是会造成这些用户的流失。

王冬冬：我们一方面其实就是说让用户怎么来知道他应该选择哪一种产品，对于这一块，一方面我们在我们的官方网站上也会提供一些成熟的案例，包括一些整体的架构是怎么样搭起来，哪些产品在这个设计里面是非常好的。另外一方面，我们也会有架构师去了解你的具体应用场景，然后向你提供专业的帮助，还有，我们也会和一些第三方合作，拓展更多能够帮助到用户的咨询渠道。

记者：在Hadoop上面数据同步的设计是相当重要的，通常需要异构数据源的同步，像数据文件到关系型数据库，或者数据文件到分布式数据库，关系型数据库到分布式数据库等等，这方面你们是如何做的？

王冬冬：任务调度配合数据同步工具来做，每一个数据源都像是一个插座一样，我们做很多适配这种数据源的插头，然后中间做对应转换，就像网一样相互串起来。然后定时的任务调度就及时的调用工具，把数据同步任务做了。

记者：为了提高可用性，每个电商平台都有容灾备份，以防止节点宕机失效带来的不可用问题，这方面你们选会如何选择备份策略？

王冬冬：对于ucloud的每个产品都有对应的容灾策略。在基础设施方面，在北京我们做了同城机房灾备，3机房光纤环形链路链接，保证机房的高可用。在大数据产品方面，存储是分布式存储，数据保存3份拷贝。所有存储、计算的关键节点都有热备。mapreduce、spark都有容错机制保证。同时我们自身的监控系统也会及时发现问题，对问题任务进行调度处理。

责任编辑：林师授来源： 51CTO