在2017年中,对于大数据采集、处理、分析、应用全流程都有把控的公司将会越来越受到青睐。数据流之所以称之为数据流,正是因为数据只有流动起来,才能真正发挥其价值所在。
作者 | 洪倍
本文长度为2500字,建议阅读5分钟
本文为数据猿年关策划活动《大数据的2016,我的2016》系列稿件,感谢本文作者 AdMaster创始人 洪倍 先生的投稿。
敬请期待2月16日,由数据猿与中欧商学院、腾讯视频共同举办的高端领袖线下演讲栏目中欧微论坛之《超声波》。
2016年对于我来讲是十分具有纪念意义的一年,在这一年中,由我和 Vincent(Vincent Yan,闫曌 AdMaster创始人 首席执行官) 所创办的公司 AdMaster 度过了他的第十个生日。在十年前的那个夏天,大数据还仅仅存在于概念中,那时的我们就坚信,在未来的十年中,大数据必定会引领一段波澜壮阔的潮流。
如今十年如白驹过隙般匆匆而逝,站在第十年的年末回顾这一年的种种,看着在2016年中大数据取得的种种硕果,我也是颇为激动的。
回顾2016,深度应用发挥数据真正价值:
最近有一位朋友在闲聊时提到,在2016年中,大数据似乎在概念的热度上已有所下降,其更偏向于实际的应用(如人工智能,深度学习)。对于这种说法,我实际上也有体会的。大数据从概念向应用的转化是一个必要的过程。任何事物在产生初期肯定只有概念,而其最终目的必定是为人类带来收益。
经过十余年的时间,大数据已经在技术领域积累了一定的经验,有了这些基础,我们可以利用大数据做一些更实际的东西。大数据好比是原始的食材,人工智能、深度学习好比是烹饪好的食物,如何做出美味的食物,从洗菜,切菜到炒菜,这其中的任何一个环节都需要仔细琢磨。
而这其中有一个十分重要的环节,就是一定要做好清洗,食材如此,数据亦然。如果数据源被污染,之后的一系列过程都会被脏数据破坏,离我们最近的一个例子就是微软小冰满嘴脏话,导致这一问题的直接原因就是小冰在机器学习的过程中未对学习的语言内容进行有效过滤。
相比微软小冰满嘴脏话的尴尬表现,另一位人工智能领域的新星——AlphaGo 在2016年可谓搏足了我们的眼球。相信大家都有关注那条火爆的新闻:AlphaGo化身Master,接连战胜诸多围棋名手。
实际上,在2016年3月份4:1战胜李世石后,AlphaGo就已经俨然成为了人工智能的代名词。在那之后又经过如此长时间的深度学习后,他再次战胜诸多围棋名手,其实也是在我们意料之外,情理之中的事情。与这些围棋名手的棋局,实际上也化作大数据,成为了AlphaGo深度学习的内容。相信在这几番激战后,AlphaGo又会产生了一些新的微妙变化。
人工智能在未来会是一个十分重要的领域,大数据则会是其不可缺少的后盾。目前来看,AlphaGo显然还不如我们想象的那样智能,虽然他可以战胜人类棋手,但更多的是依赖于其强大的计算能力,而非类人的思考方式,有传言称AlphaGo下一盘棋消耗的电量就相当于小半个城镇,无论是否属实,其运算所耗费的资源可见一斑。
未来深度学习的算法能够做到何种程度的优化,如何妥善处理学习数据,都会对AlphaGo的进化之路产生影响,对于这一切的结果,我们拭目以待。
看到如此多的大数据成果,我固然很欣喜,然而凡事都有两面性,在2016年中,大数据带来的一些负面的影响也让我陷入了深深的沉思。而这首当其冲的,依旧是大数据的隐私与安全问题。大数据的隐私与安全问题一直都是一个敏感的话题。一方面,数据的量级越大,对于后期数据的处理分析的效果越好,能带来的收益越明显;另一方面,保护数据安全的难度也会越来越大。
据统计,在2016年,全球范围内被曝光的泄漏事件达到了1818起,而未被曝光的数量则难以估量。数据的泄露对于企业的品牌会是毁灭性的打击,也会使大数据的意义受到质疑。为了防止泄露,我们都在尽可能的增加对数据的保护机制与流程,利用身份认证、访问控制、传输加密、文件加密、审计等途径,多方面多维度的保护数据。我始终坚信,技术是中立,而使用技术的人决定着这项技术最终是造福于人类还是遗害于人类。
同样数据安全也不仅仅是个单方面概念,更重要的从架构、流程、机制乃至思维层面,和客户、合作伙伴一起进行梳理和规范。截止到2016年,AdMaster通过了ISAE3402 和 ISO27000 数据安全审计,安全审计不仅仅是一个认证证书,更让团队借助深入访谈、严格审计、应急演练,提高综合的安全意识、多多考虑风险管控,以更加主动的心态去做好数据安全。魔高一尺,道高一丈,正义的大数据人应有与数据黑客抗争到底的决心。
另外,在2016年走访客户的过程中,我发现大家仿佛都在说着自己在拥抱大数据,但实际上没有多少人弄清楚自己掌握了多少数据。既然都不知道拥有多少,就更不用谈利用了。如果此时你愿意好好坐下来梳理一下自己手中的数据资产和数据相关的业务流程,我相信你的公司在2017年会有质的飞跃。
在梳理的过程中,一定要清楚这些数据是如何采集的,如何保存的,应该用何种手段去分析发掘这些数据,这一部分数据之后会和什么样的场景去结合,以产生化学反应。这一点对于营销部门尤为重要,如果可以正确的运用大数据分析建模带来的成果,与相应的业务场景结合,带来的收益将十分可观。
展望2017,全流程把控最大化数据价值:
说了这么多2016年的回顾,我也不禁对2017年大数据的发展充满了憧憬。我相信,在2017年中,对于大数据采集、处理、分析、应用全流程都有把控的公司将会越来越受到青睐。数据流之所以称之为数据流,正是因为数据只有流动起来,才能真正发挥其价值所在。
目前更多的公司还只是注重于大数据流程中某一环的工作。有的公司可能专注于数据的采集,有的公司可能专注于分析。这样子做未免有些管中窥豹的感觉,而且数据在交接的过程中,必定存在由于沟通不畅导致的信息缺失,影响最终的洞察、发现乃至影响收效。
对大数据全流程全面把控的公司,对于数据流有着从头到尾的完全掌控,采集,储存,提炼,分析,各个过程一气呵成,内部部门配合效率也必定更高,整个过程可以大大降低成本,减少数据的失配,有问题出现也可以更快的追本溯源解决问题,最终实现收益的提升。
2016年已经过去,2017年仍待我们努力。大数据之路,你我同行。
— 关于作者 —
洪倍,AdMaster(精硕科技)创始人兼首席技术官,他在 2006 年与闫曌共同创立 AdMaster,带领公司研发团队完善产品架构、钻研核心技术、挖掘数据价值。
洪倍独创了 AdMaster Dual Cookie 用户标识技术,专注于高并发异构数据实时流式计算的研究,拥有丰富的分布式数据挖掘集群的架构设计经验。他带领 AdMaster 研发团队,架构了中国领先,涵盖广告监播、社交聆听、电商渠道及移动应用等多种数据源的营销大数据采集和处理集群。