2016年即将过去,各位大数据的程序员们,是否觉得这一年都不断的追着新技术跑?这个大数据公众号是今年一月底创立的,一年过去,我们积累了不少好内容。回过头来我们看看这一年的脚印,这里我按照文章内容做了一次汇总,分为:流处理、机器学习、用户画像、数据驱动、Hadoop、Apache Spark、Apache Kylin、Druid、推荐系统和大数据平台架构。
流处理
2016年流式数据处理已逐渐开始成为主流,对于流数据的处理存在很多技术,即使在开源社区中,也存在很多扑朔迷离的选择。在大数据杂谈里我们包含了一些优秀的流处理文章,包括Kafka流,Spark流,Storm,Flink,Samza等。
Apache Flink是今年新军突起的流处理技术,完全兼容Hadoop。Apache Flink与Apache Spark的主要差别在于计算模型不同。Spark采用了微批处理模型,而Flink采用了基于操作符的连续流模型。
大数据分析引擎Apache Flink: What, How, Why, Who, Where?
LinkedIn在2010年开发了Kafka,是Kafka的重度使用者,他们总结的经验是非常有参考意义的。而“微服务架构:kafka的崛起”这篇文章详尽的探讨了在微服务架构升级的过程中,如何使用Kafka将微服务之间耦合降到***,同时能让整个系统在保证高可用的前提下做到高可扩展。
同时Samza也是LinkedIn研发的一款流处理器,下面的文章介绍了Samza在LinkedIn公司的应用情况,Samza在流处理方面的优势、新特性以及下一步的规划。
LinkedIn开源流处理器Samza的应用场景、优势、新特性与未来规划
下面这篇文章,集中比较了主流的流处理器的优缺点。
实时流处理框架Storm、Spark Streaming、Samza、Flink,孰优孰劣?!
下面是一些企业自研流处理架构的情况。JMQ是京东自研的消息中间件,InfoQ前后发过两篇文章来解析他们的中间件情况;另外我们也给出了一系列文章来说明Yelp的数据管道,并且Yelp的数据管道刚刚宣布了开源,大家可在Github上下载阅读源码。
京东消息中间件JMQ:架构,与Kafka的对比,主要特性和应用场景
Kafka和Twitter新开源的DistributedLog技术对比
机器学习
机器学习经过近年来的强势生长之后,很快地从一个很少被人关注的技术主题,转变为被很多人使用的管理工具。其有效性被无数企业成功验证和应用,为了避免错失良机,企业需要设计自己的机器学习项目,比如在电商平台的推荐、排序业务中。在业务的多样性大的时候企业就需要考虑将机器学习系统平台化。对于学术界来说,学者们更希望机器学习平台容易调试、灵活性要强、迭代要快;而对于工业界更看重的是平台的稳定性强、处理大数据量、容易进行数据整合、高效率、低开发成本等。
我们在大数据杂谈上实际上已经积累了不少企业机器学习平台构建的内容,包括:腾讯的Angel,优点是效率快于Spark几十倍,支持维度达到十亿;另外是阿里巴巴的参数服务器,讲述了涉及理念以及在阿里的实际应用;还有第四范式的先知平台,从系统和工程方面的优化方向,在开发平台产品时的一些经验;还有就是TalkingData的Fregata,优点***是速度快,第二是算法无需调参或者调参相对简单。
腾讯大数据宣布开源第三代高性能计算平台Angel:支持十亿维度
为什么已有TensorFlow和Spark,第四范式还要开发“先知”平台?
]轻量级大规模机器学习算法库Fregata开源:快速,无需调参
下面两篇文章讲的是怎么将深度学习平台应用到企业生产环境中,这也是大名鼎鼎的两个平台:Tensorflow和Deeplearning4j。
如何通过TensorFlow实现深度学习算法并运用到企业实践中
下面是各公司针对企业的业务利用机器学习来提高产品体验的一些经验。依次是Twitter,1号店,携程,搜狗,达观数据。***是一篇总结深度学习全球进展和预测2017的文章。
用户画像
“对企业而言,得用户者得天下,能够有一套科学的精准营销、个性化推荐模型,无疑会促进业务的增长;对开发者而言,用户画像也是频繁被提及的技术,这样可以根据目标用户的动机和行为上进行产品设计,远远优于为脑中虚构的东西做设计。”
这里有来自去哪儿、TalkingData、FreeWheel、百分点、天云大数据的5篇优质内容教你如何设计精准的用户画像产品。
数据驱动
讲大数据离不开数据驱动。数据驱动相关案例分别来自链家网、诸葛io、LinkedIn和滴滴。
Hadoop
今年1月,Hadoop过上了10岁生日,我也在年初策划了Hadoop十年的专栏,共约了十篇稿件,Cloudera的陈飚老师的文章在这一年中流传甚广,非常值得一看。另外InfoQ将这十篇文章集中到一起,做成了《架构师特刊:Hadoop十年回顾》的电子书分享给了大家,有兴趣可以下载下来读一读,将对Hadoop生态形成非常好的理解。在这里再次对十位作者老师表示谢意,谢谢大家的无私分享!
Apache Spark
在2016年,Spark迎来了最近两年的一个***的版本的发布:Spark 2.0。但是在Spark上我做的工作并不够,原本很想做个很好的专题,但是屡屡碰壁之后只能罢了,毕竟对于Spark开发者来说,这么大热的一年,任何实践都足够上沙龙和大会。
关键七步,用Apache Spark构建实时分析Dashboard
Spark在GrowingIO数据无埋点全量采集场景下的实践
Apache Kyline
Bay的大数据OLAP框架Kylin项目一经开源,即获得了业界众多的称赞,并被邀请加入Apache软件基金会的孵化项目,在2014年11月,正式经投票加入了Apache大家庭,项目名字也改成了“Apache Kylin”。
InfoQ在Kylin开源的一开始就持续关注这个项目,分享了很多的案例,促进了Kylin社区的进一步发展。这些内容我们也集中到了电子书中:《架构师特刊:Apache Kylin实践》。
Apache Kylin在美团数十亿数据OLAP场景下的实践
涨姿势:百度地图的工程师都是如何利用Apache Kylin处理数据的
Druid
Druid作为一个大数据的OLAP系统,在这一年里收获了很多的关注。国内也有了Druid中文社区,组织了好几次Druid Meetup。
PB级数据快速聚合查询,Druid和Caravel在去哪儿大住宿的实践
推荐系统
推荐系统部分有百分点、京东、达观数据的企业实践,也有解说播客和博客的推荐系统原理和实践的文章。还有一篇***的推荐系统进展,Youtube的大规模推荐系统。
***也同样奉上两本电子书:《推荐系统:理论篇》和《推荐系统:实践篇》。
三周时间,搭建一个产品级的播客podcast推荐系统实践解析
用一个大家都懂的方式来聊聊YouTube基于深度神经网络的推荐系统
大数据平台与数据挖掘实践
数据平台部分积攒的内容也非常多:携程、去哪儿、百分点、诸葛io、腾讯、挖财、有赞、链家网、美团、卷皮、达观数据和明略数据。
大数据平台变革浪潮中,这家初创公司积累的值得借鉴的业务架构实践经验
用Elasticsearch构建电商搜索平台,一个极有代表性的基础技术架构和算法实践案例
房源推荐、房屋估价、经纪人画像...,链家如何利用数据挖掘技术服务房地产?
从Storm到Heron,Twitter的实时计算框架有哪些重大进化?
这5种必知的大数据处理框架技术,你的项目到底应该使用其中的哪几种
数据库
大数据少不了数据存储,推荐大家再看看***篇黄东旭老师的开源数据库现状。
10亿级流数据交互查询,为什么抛弃MySQL选择VoltDB?
知识图谱