BAT巨头对数据拥有各具特点,首先说百度:百度拥有用户搜索表征的需求数据、爬虫和阿拉丁获取的公共WEB数据;阿里巴巴拥有交易数据和信用数据;腾讯则拥有用户关系数据和基于此产生的社交数据。而且,BAT对于数据的应用和变现形式也各不相同:百度的数据源于数据自产+第三方合作,采用研究和实用结合的使用方式;腾讯的数据自产自销,主要为其产品所用;阿里巴巴看中的是数据的流通,做数据的集散地。
从数据产生的根源来看,BAT三大巨头拥有的数据大部分主要都是基于B2C 的服务而产生的。然而,随着网络技术的发展和数字营销的普及,随之产生另一部分非常重要的大数据则是在B2B的服务模式下,挖掘采集而来的消费者广告行为、动态、品牌舆情等消费者行为相关的数据。针对这些数据的采集、管理、分析和应用,国内出现了像AdMaster(精硕科技)这样的数据应用和管理解决方案的公司。AdMaster是一家成立于2006年的SaaS公司,专注于通过技术驱动来完成数据的挖掘、分析、管理和应用,利用技术和数据为客户创造商业价值。据了解,AdMaster的数据应用是多源的。目前采集和分析得数据主要包括数字广告效果评估和优化数据、社交媒体营销数据、移动广告效果评估和优化数据、跨多屏优化和效果研究数据、品牌电商数据以及RTB领域DMP数据平台和广告主私有数据管理平台等。同时,还包括第三方合作伙伴对接数据和来自广告主提供的自有CRM系统数据。
面对如此海量且多源数据的分析和管理,主要推动AdMaster业务快速发展的就是其核心的数据应用技术。AdMaster的技术实力虽然不能说堪比BAT巨头,但是其技术优势在数字营销领域内也称得上***。据AdMaster高级技术总监卢亿雷介绍:“目前,AdMaster的数据处理能够实现每秒接收超50万次的并发请求,每天新增数据量超过4TB,对1000亿条记录进行超过1000种维度的计算。”同时,为了保证数据质量,提供高可靠、高可用、高扩展、高性能系统服务,AdMaster所有服务全部做到了无单点,数据多重备份,系统采取分布式集群,主要分为WEB集群,存储集群,数据库集群,计算集群四大分布式集群。根据海量数据处理需求,AdMaster自主研发了行业最领先的ADH(Advertising Distribution Hadoop)数据处理平台。ADH平台可以帮助AdMaster在完成数据采集后快速进入计算流程,可以更快的为广告主提供数据支持,数据处理速度对比同行业提高了1倍以上。与此同时,ADH平台还具有以下几个优势: 减少数据扩充,优化合并过程,使采集数据直接生成客户所需格式,提高处理速度;内置广告行业算法,不需要编写MapReduce就可以计算PV、UV等各种维度数据;优化HBase查询,专为社会化数据定制,提高处理性能;集成数据任务调度系统,可以根据业务需求自动调整计算资源;集成Storm,优化Storm传输,减小数据延迟,实时提供数据计算;集成Spark,优化迭代工作负载,提高系统可靠性。
“另外,AdMaster的技术应用优势还体现在AdMaster对数据应用有很深的理解,具有多源数据的挖掘、分析和处理能力。同时拥有超大集群实战经验、及对推荐算法、分类、聚类、NLP等算法有很深的研究的各种人才。”卢亿雷强调。
在数据应用标准方面,卢亿雷也很自信阐述了AdMaster在数据应用和合作方面的开放态度。为了拓展AdMaster多源数据的范围,AdMaster充分拥抱开源技术,增加分布式存储和计算(包括Hadoop,Spark,Storm等),以及算法优化(包括有NLP,机器学习等)等方面的研发投入。目的是为行业提供高质量服务、推动行业标准完善、全面提高数据可靠性和安全性。
再强大的技术都无法超越人才和团队的力量,据卢亿雷介绍,AdMaster设有北京和上海两个技术研发中心,技术人才占公司总人数的60%。他们主要来自百度、阿里、腾讯、新浪等互联网巨头公司,对大数据处理技术有着很深的见解,包括对Hadoop等离线,流式,实时等分布式计算有丰富的积累和经验。
未来,随着数据价值潜能更大的被挖掘和重视,数据应用技术和体系将在市场需求的刺激下持续、快速的发展。像AdMaster这样的以技术为核心的公司一路走来不可避免的需要面临行业发展带来的各种挑战,当然挑战也是机遇,只有敢于迎接挑战才能抓住机遇。相信,也只有这样的***才能***整个行业的发展和繁荣。