【51CTO.com原创稿件】WOT2016大数据峰会将于2016年11月25-26日在北京粤财JW万豪酒店召开,届时,数十位大数据领域一线专家、数据技术先行者将齐聚现场,在围绕机器学习、实时计算、系统架构、NoSQL技术实践等前沿技术话题展开深度交流和沟通探讨的同时,分享大数据领域最新实践和最热门的行业应用。
51CTO记者对即将参加大会演讲的一点资讯大数据平台研发总监 田超行了专访,让我们先睹为快,探听田超在一点资讯大规模实时点击反馈平台方面的心得。
田超,目前在一点资讯任职大数据中心技术总监负责基础架构及大数据平台相关工作。硕士毕业于中国科学院计算技术研究所,曾任职雅虎北京研发中心工程师、同步盘CTO、高德软件高级技术经理等职。现任一点资讯大数据平台技术总监。
大数据技术是对于海量数据的处理能力及构建在这样处理能力之上的数据应用。从Hadoop大规模普及开始,业界拥有了构建大规模数据存储和计算的能力,而随着技术的不断发展,上层应用对于拥有实时处理海量数据能力的需求在不断增强,这就衍生出了如Storm在内的各种实时计算的框架和系统。而今天做的一些技术包括Spark、Google dataflow等则希望能够更有机的将离线计算与在线计算进行统一。
实时的数据处理能力对于一个现代互联网公司来说是必要的组成部分。各个公司的在线机器学习、实时用户画像系统、实时数据仓库、实时统计分析系统等业务都需要拥有实时的大规模反馈数据计算的能力,这些系统的实时计算部分有一定的共同点,也有一定的特殊部分。一点资讯的实时反馈平台在设计之初对上述系统对实时计算部分的公用计算模型和数据结构进行了抽象,对系统设计的时候参考了Google的Mesa系统,从而设计成为一个可扩展的平台,能够在一点咨询内部支撑着上述系统的实时计算部分任务。
许多的资讯平台智能为读者服务,但是一点资讯可以反向,为读者服务的同时也可以为作者提供资讯。系统在根据用户的行为来分析,以及挖掘用户对兴趣的需求和需求被满足的情况。这些数据及对数据的深度挖掘为一点资讯的内容生态建设,提供了一个全局的上帝视角,使一点资讯可以从更高的角度来观察群体上的表现及内容趋势。一点资讯还有一个叫一点insight的系统,目前属于邀约测试中,该系统会把对于用户兴趣的知识映射到不同的领域上,以各种数据可视化的方式来展示这些知识。
搜索引擎强调的是用户搜索,相当于用户带领内容;推荐是用户完全处于被动,也不做表达,先给予用户共性的内容,再根据其点击行为,猜测用户的喜好,然后再将内容推荐给用户。搜索引擎和推荐引擎是有着相似结构的不同系统。把搜索技术和推荐技术有机的融合在一起,是一点资讯兴趣引擎设计的核心目标。兴趣引擎中,对于用户的搜索和推荐行为数据底层完全打通,充分的利用用户主动表达与被动行为信号,基于人工智能技术不断学习和挖掘用户的兴趣,并基于用户兴趣进行内容的分发。
对于大数据到人工智能之间技术的不断发展,在田超看来实际上是业界对数据的处理,以及利用能力不断发展提升的自然过程。最早的时候,业界大多数技术都是用来处理结果数据的,数据量在GB级别,存储使用Database,对于数据获取和存储计算的能力处于初级阶段;随着Hadoop等一系列基础架构的不断发展,大数据技术也不断发展起来,技术人员不仅仅是处理业务结果数据,对描述用户行为的日志也进行了更深度的处理,辅助业务进行计算,这个时代数据量已经增长到了PB级别,存储使用各种分布式文件系统,这一阶段各种离线计算、流式计算、图计算模型也都随着大数据应用的发展而发展起来;而今天,在已经拥有了更好的计算模型以及更加海量的数据之后,对于数据的利用也更加深化,人工智能及深度学习技术与大数据的结合也可以构造更加智能的应用。
【51CTO原创稿件,合作站点转载请注明原文作者和出处为51CTO.com】