首次Strata+Hadoop World(SHW)北京大会在2016年8月初成功召开,好评如潮。我们的愿景是:通过一个大会来展现大数据和数据科学领域在中国以及全球的趋势与方向。非常多有意思的创新点在大会的60多个议题演讲和主题演讲中涌现。
在过去的几年中,我见证了中国很多公司已经成为早期的和重要的Apache Spark的贡献者。而Spark作为一个分布式的数据处理框架,已经成为最活跃的大数据开源项目。那些持续跟踪数据科学和大数据的人士,应该能敏锐地认识到来自中国的公司正在持续地把类似Spark这样的技术的极限推进到更大的规模,而这样的规模在其他国家是无法见到的。我非常高兴终于能与中国本土的数据社区见面,并能够创造机会让中国的技术专家和来自世界各地的专家交流思想。
应用
SHW不仅仅是一个学习框架、平台和技术的场合,我们也希望能集中展示多个领域的多种应用。我们提供了数据在金融、安全、电子商务和社交媒体、交通运输和物流、通信和移动计算、制造业、教育和公共服务等领域的应用案例。
数据科学和人工智能
在本次大会的众多议题中最热的话题就是大规模的机器学习和人工智能(AI)应用与技术。实际动手的培训课程涵盖了很多与之相关的主题,包括TensorFlow、MLlib;Petuum和DL4J这样的框架;多个领域内的创新,如金融领域(蚂蚁金服和宜人贷);无人驾驶汽车(百度)、对话机器人和对话接口(微软);知识数据库和知识图谱。讲师们介绍了很多具体的方法(如深度学习)和框架,并带领大家探讨了如何采用分布式机器学习和人工智能技术并进行产品化。Datavisor的CEO(谢映莲)介绍了一个新颖的基于Apache Spark的平台,可以利用大规模无监督机器学习技术来进行欺诈检测。
框架和平台
对现在的数据工程师而言能熟练使用多种技术是一个基本的工作技能。参加实践课程的学员都能够与一些重要的开源技术的创始人交流。这些技术包括Hadoop、Spark、TensoFlow、Kylin、Druid、Alluxio、Heron、DistributedLog和DL4J。
而SHW的另外一部分,各种活动和议题演讲则涵盖了解决方案架构的最佳实践。那些把独立的部分组合成一个有序的应用平台的架构设计分享则成为大会的另外一大热点。包括小米、滴滴出行、推特、优步、百度、阿里巴巴、京东和华为在内的多家公司都概略性地介绍了他们的数据平台的不同方面,以及一些具体的应用案例。
大会的议题部分也较好地涵盖了基于云的平台、技术和解决方案。
智能、实时的应用
来自小米和海尔的演讲人介绍了关于物联网、实时计算技术、工业制造和智能家居的应用。其他的演讲人则对与金融、安全、电子商务和社交媒体相关的应用进行了介绍。除了行业应用以外,其他的议题演讲也涵盖了构建流计算应用的多个技术方面,比如使用诸如Spark、Apache Beam、Durid、Alluxio、Heron和DistribuedLog等技术来构建流计算应用。
创造全球思想碰撞的平台
我想特别强调的是,本次大会实现了与中国的本土开发社区的积极合作,创造了一个让中国的技术专家和来自全球的专业人士之间进行思想碰撞的平台。这也反映了主办SHW的一个核心愿景,即构建一个让大数据、数据科学和人工智能技术领域的实践者、用户和企业进行广泛交流的社区。
一些分布式计算技术的最大规模的生产级部署是在中国发生的。本次大会的与会者表达出了对于来自这些中国公司的演讲的极大兴趣。同时一些中国的与会者也告诉我,他们非常高兴能有机会倾听国外技术专家的分享。随着SHW北京的成功举办,我们期待着一个跨越中国国界的数据社区的自然形成。
本·罗瑞卡(Ben Lorica)
本· 罗瑞卡是O'Reilly的首席数据科学家和关于数据方面的内容策略主管。在多个领域里(包括直销市场、消费者和市场研究、精准广告、文本挖掘和金融工程),他曾经进行了商业智能、数据挖掘、机器学习和统计分析的工作。他层效力于投资管理公司、互联网创业企业和金融服务公司。