【51CTO.com原创稿件】活动说明:挨踢部落是为核心开发者提供深度技术交流,解决开发需求,资源共享的服务社群。基于此社群,我们邀请了业界技术大咖对开发需求进行一对一突破,解除开发过程中的绊脚石。以最专业、最高效的答复为开发者解决开发难题。
话题关键词: 大数据 spark 数据分析 数据画像
部落阵容:徐韬,龙珠直播大数据主管;王劲,数果科技 联合创始人;
面向对象:初级开发工程师,数据分析师,运维工程师
参与方式:加入51CTO开发者QQ交流群 370892523 ,有任何技术问题,在群里提问,或发给群主小官。
活动详情:
南京-史国俊-Java:有没有Spark学习的相关资料?
徐韬:建议学习Spark官方文档,其他的Spark书籍可能会跟不上Spark技术的更新。
北京-robingao –Java:用Spark做离线分析,Nginx 日志一般从那些维度怎么分析,具体都看什么维度?
徐韬:建议离线分析用Hive + map/reduce 比Spark 更稳定。Nginx日志一般用作流量监控,运维报警,有很强的时效性,可以使用Spark-Streaming。
北京-robingao –Java:有做客户画像方面的分享吗?具体点的。
徐韬:用户画像就是给用户“打标签”。用户画像可以分为静态标签,动态标签。静态标签是很少更新的指标或者是几乎不变的指标,比如用户的个人信息。动态标签是用户的行为标签,比如直播站的喜好类目。通过用户行为日志和交易流水数据打上的标签 ,一些网站/APP 只有少量的用户个人信息,但是通过打点可以获得海量的用户行为日志,我们可以通过聚类分析预测用户的性别,年龄段,所在城市类型,工作类型等。直播站的一些比较有特点标签有:喜爱主播,习惯上线时段,签到型用户等等。
南京-史国俊-Java:假如要同时向Spark集群提交多条SQL,能否不采用Spark-submit方式来实现?
徐韬:建议在Spark-SQL客户端里提交。
重庆-小包-Android:流媒体方面的,想了解下Android方面有关于流媒体的案例,比如视频语音流这类的?
徐韬:这个题目太大了,和直播相关的案例有直播回放,连麦,H5直播播放器。
广州-赵辉-大数据:大数据的多源数据融合的价值?
王劲:如果大数据不做跨界多源融合,数据的价值很有限,也体现不出大数据的真正核心价值。其中在金融,电商,保险等行业会更能体现多源数据融合的价值。
珠海-小源-Java:51CTO有没有做大数据相关的专题?
51CTO:有的,可以订阅大数据期刊,订阅的方法:在家园里面,个人主页——我的订阅这里。例如:
珠海-小源-Java:安全相关的专题有提供吗?
51CTO:安全专题例如:HPE安全——“功夫熊猫”背后的数据保镖;聚焦美网络瘫痪事件,物联网安全发人深省;2016国家网络安全宣传周专题报道;第十一届(ISC)2亚太信息安全峰会专题报道;避免勒索软件攻击 仍需预防为上。
北京-杨凯-网络工程师:想了解云计算方面的知识
51CTO:可以参考这篇来学习re:Invent 2016----AWS的五大云计算超能力。
南京-小胖- Android:云计算与大数据之间的关系
51CTO: 云计算的特点:通过对计算、网络和存储资源的动态调度及应用的快速部署,通过虚拟技术提高信息化设备的利用率,实现节约资源、提高效率、集中管理、信息共享和节约财政支出等目的。云计算平台主要部署各类应用系统、存储海量数据,为电子政务、社会管理、公众服务等提供服务。
您对这些解答方案是否仍有疑问?欢迎加51CTO开发者QQ交流群 370892523 讨论。
下期活动预告:12月26日
关键词:移动 android 物联网 前端
【51CTO原创稿件,合作站点转载请注明原文作者和出处为51CTO.com】