提到当下IT领域最时髦的词,大家一定会想到“大数据”。随着大数据技术的进一步落地,各行各业的企业纷纷拥抱大数据。我们知道,丰富的数据源是大数据产业发展的前提。然而,虽然如今几乎任何规模企业,每时每刻也都在产生大量的数据,但这些数据如何采集、提炼始终是一个困扰。于是,针对大数据的采集问题,51CTO记者在【WOT2015"互联网+"时代大数据技术峰会】现场采访了资深数据平台架构师,来自汽车之家的周红刚。
周红刚毕业于中国传媒大学,目前在汽车之家主要负责APP和WEB站点的数据采集工作,专注于将采集工作流程化、产品化。加入汽车之家前从事过电子商务、三维虚拟现实、视频媒体应用以及影视制作等多种行业和业务,充分体会数据采集工作在各行业应用中的重要性和复杂性,并对如何建设一套高效的数据采集系统有充分的实战经验。
大数据时代,我们需要更加全面的数据来提高分析预测的准确度,而全面的数据需要从海量的数据中来找到。如何才能采集到有价值的全面的数据呢?数据采集对很多企业来说并不是一件容易的事情,需要一定的方式方法。周红刚表示,采集工作并不太复杂,针对APP的数据采集可以通过SDK,针对网页数据的采集可以通过GS。其实说到底,就是提供一个地址,给这个地址发送数据,SGP的请求可以完成所有的事情,这是在大部分的流量常用的方式;还有一种是在服务器端,从文件里直接解读;另外,还可以通过黑客的方式,从路由器、网络里面直接截取,但这不属于常规方法。
在数据的采集工作中,除了技术以外更多还要考虑业务,特别是满足业务方的需求是个难点。另外,因为数据的采集处在数据的前端,如果采集过程中数据丢失了,这是件可怕的事情。所以数据采集前首先要充分了解需求,在发生问题的时候能快速解决,还要避免数据的丢失。
周红刚表示,虽然数据采集的技术上的技巧不多,但是还是有很多小的方法的。比如:通过自动化,自动部署统计代码,自动排查加码错误以及自动预警系统异常。或者通过学习第三方的方法,融合对方的长处。
后记
作为中国传媒大学的毕业生,周红刚在经历电子商务、安卓开发等工作后,为何最终选择了数据平台架构师这份工作。周红刚戏称:“我是中国传媒大学广播学院表演系毕业的,我一直在扮演一个程序员。”并告诉笔者,“‘架构师’是一个职务的名称。因为我们会系统性地去看待一个东西,不管你是做事、还是做技术,你看得越上层越全面会越好。做架构师,能让我能站在写代码之上的东西来更好地看待它,对我很有帮助。”
周红刚表示要想做好一名数据平台架构师,首先要思路要跟上,多做除技术之外还要多考虑架构问题,确定方向,这样更容易进行以后的工作。再次,让采集系统之外的人能够理解这个架构,并抽象出来。
戳下方图片,更有料!