畅谈“分布式流数据持续计算”
“从全量计算走向迭代计算、实时计算,”“基于实时数据的算法明显提升效果20%”……
近日,在刚刚结束的支付宝“技术风云会”上,来自阿里巴巴、思科和腾讯的工程师分享了对于“分布式流数据持续计算”的理解和各自的“招数”。
支付宝技术风云会是由支付宝技术大学组织的线下技术交流活动,而C3沙龙是由业内关注云计算应用和发展的工程师自主发起,专注于专业领域的互动交流平台。今年6月,C3沙龙与支付宝“技术风云会”合作,将沙龙交流平台引入杭州,从而为“南派”技术人员的分享交流提供了舞台。
在交流活动中,来自阿里巴巴B2B公司技术部搜索平台部的资深专家强琦分享了关于“持续计算”的架构问题。
“我们需要从全量计算走向迭代计算、实时计算,”强琦说,“实时数据的特点是到达时间、数据顺序、数据质量、数据规模等不可控,处理算子对全局状态的影响不同等,要求分析系统要有强大的体系架构和容错方案。分布式实时流数据计算平台 IProcess可以做到满足任务优先级、调度、容错、流式计算等多个特点,并且支持事务,架构领先,业内领先”。
来自腾讯公司的工程师张文郁分享了关于腾讯“实时推荐数据流系统”的内容,这是与“分布式流数据”相关的具体例证。
“静态数据正在向动态数据的转变,必须让数据分析有质的变更”,张文郁分享说,数据中心从离线走向准实时是革命性变化,面向客户、面向终端,带来更具有突破性的商业价值;这套系统基于实时数据的算法明显提升效果20%,效果明显,数据的价值挖掘到更大。
来自思科公司的工程师Denny & Dean则分享了.思科流式分析系统设计的考量和需求,介绍了思科在hadoop之上开发出的处理实时数据流转的StreamAnalytics系统。