无论是电商还是互联网广告,直接面对的是用户,用户的属性决定了他会购买哪些商品或者点击哪些广告。那么建立用户标签系统对于这些企业非常重要。
本届WOT软件技术峰会特邀小象科技作为大会特邀合作伙伴,汇集大数据社区技术精英,于7月27日举办大数据专场培训。本次培训主要讨论如何建立用户标签系统和如何使用这些标签系统实现商业价值。
讲师:董西成
ChinaHadoop小象社区核心成员
《Hadoop技术内幕:深入解析MapReduce架构设计与实现原理》和《Hadoop技术内幕:深入解析YARN架构设计与实现原理》书籍作者;资深Hadoop技术实践者和研究者,曾参与商用Hadoop原型研发,以及分布式日志系统、全网图片搜索引擎、Hadoop调度器等项目的设计与研发。
1. 从技术来说,您认为大数据在今年还会有什么革新?总体感觉,如何与行业应用结合?
从技术方面,个人认为计算框架方面将有飞速发展,包括内存计算、流式计算和交互式计算等,这主要涉及Spark/Spark SQL和Hive On Tez技术体系,尤其是spark,引起来各大公司兴趣,均尝试使用spark解决之前MapReduce不能够很好解决的问题。总体而言,Spark等系统能够很好地解决对效率要求较高的问题,典型地是迭代式的机器学习算法,这也是公司尝试Spark的最初动力。
2. 行业大数据其实早就存在,但对此认知并不一样,您认为这种差异性表现在哪里?
大数据存储和分析方面的技术能力存在差异。之前缺乏廉价可用的分布式技术存储和分析大数据,使得很多公司丢弃了很多数据,或者仅仅是将一部分数据保存下来,未进行分析。如今大数据存储和处理计算日渐成熟,尤其是开源技术的飞速发展和互联网公司的带动,使得行业大数据成为爆发点。
3. 行业大数据的实施,您认为技术难点在哪里?
个人认为难点在技术方案的转变。目前很多传统行业仍采用非常过时的技术方案,这些方案难以支撑大数据,鉴于此,很多公司尝试朝大数据架构转型,但由于过多的历史包袱以及缺乏大数据技术的理解和信心,使得整个过程非常缓慢。
4. 请分享一个您参与的传统企业大数据项目。这个项目大致分几个阶段?
介绍一个银行的项目,该项目的目的是ATM等终端设备的日志收集和分析,这是银行的一个试探性项目,可认为是对大数据开源技术的尝试,由于这一块跟已有架构重叠较小,因为不能很好地代表一般的大数据项目。这个项目经过了可行性分析,技术验证(小规模数据测试),项目开发,项目上线和运营等几个阶段。
5. 大数据项目的实施,对已经存在的业务分析架构,会带来怎样的影响?
取决于跟已存在业务分析架构的相关关系,如果是互相补充和完善,则巧妙地设计会完善公司的业务分析架构,如果是替代,则会逐步将业务迁移到大数据架构上。
6. 大数据应用工具的大量出现,会取代数据分析人员的位置吗?
短时间内,数据分析人员仍处于不可或缺的位置。大数据应用工具扔仅仅是数据分析人员完成数据分析的工具,难以将全部分析交给这些工具完成而无需分析人员的干预。
7. 数据是传统企业最核心的资产。我们在大数据的分布式处理方式下,该如何保证数据的安全性和完整性?
数据安全性和完整性是大数据时代面临的***挑战之一,目前国内很大一部分公司扔将大数据保存在自己私有的集群中,不会直接接入互联网,这样,可以把安全问题局限在一个局域网内,解决起来容易一些。
8. 在51CTO举办的WOT软件技术峰会上,会有大数据专场培训。这里面会涉及哪些方面的内容?这些培训适合哪些技术人员?
这次专场培训,我主要介绍数据基础设施,包括数据收集、存储与计算系统,具体是
(1)数据收集: 使用分布式收集工具Sqoop/Flume对数据进行统一收集
(2)数据存储:使用分布式存储系统HDFS/HBase对数据进行集中式存储
(3)数据分析与计算:包括批处理、交互式和内存计算三种
这次培训适合想了解大数据技术的初中级技术人员以及想了解大数据应用案例的高级技术人员。