随着5G、物联网、自动驾驶、人工智能等技术逐步落地到各行各业,人们面对的数据量也达到了前所未有的量级——世界上90%的数据是在过去两年产生的,到2025年数据将成倍增长10倍,攀升至163ZB。工业、金融、医疗、娱乐、媒体等行业每天都在产生PB级的信息量,而ML/DL、VR/AR等新兴技术的应用让数据曲线呈现了指数级的增长趋势,相对应的数据所在的环境也在向云、边、端蔓延,如何让数据更加敏捷、可视化,访问速度更快,管理更便捷,从而提升企业数据运营能力,是最大化数据价值的关键。
基于大数据的个性化推荐已屡见不鲜,似乎只要数据维度和量级足够丰富,AI对其的价值挖掘就会用之不竭。数据让AI有了应用价值,如Facebook会利用AI来预测用户的未来行为,作为广告投放的依据,所参考的信息包括:位置、设备信息、图片/视频浏览记录、WiFi连接状态、好友关系、聊天内容等等。然而,要想找出背后的关联性,就要对人与人、人与物、物与物之间数据“神经元”进行分析,但这并不容易,尤其是在人均管理的数据量呈现指数及增长的时候。
但与此同时,大数据在云环境的安全性正在遭受考验。与传统IT系统相比,用户和服务商的身份发生了转变,数据的所有方和托管者的角色相互独立,这就引发了对于数据信息的新挑战。数据在公有云网络上具有高度虚拟化、智能化、规模化、可扩展的特性,而资源共享也为黑客提供了便捷渠道,让数据成了APT的 “标靶”,可能在产生、传输、接收等任一流程发生泄漏。
由IBM Security资助、Ponemon Institute LLC独立开展的一项调查显示,尽管平均数据泄露成本下降了10%,单条成本下降了2.9%。不过数据泄露事件的平均规模(丢失或被盗的记录条数)却上升了1.8%。2016年,数据泄露平均总成本增加5.4%,而数据泄露事件的平均规模上升了3.2%,异常客户流失率和单条成本均上升了2.9%。可见,数据安全性并没有随着技术的演进有显著加强。
对于云服务商来说,既可以选择RAID部署,也可以在多个存储节点之间各写入几个对象副本,这样当某个节点出现故障时,其他节点的数据能够持续补充,或者利用数据副本快速恢复丢失的信息。同时,系统也可借助冗余备份来组成并联模型提升可靠性。多数情况下,云端应用会通过共享密钥、生物识别、对象去标识、加密算法、虚拟机扫描等方式保障数据安全。
对于传统原始数据来说,各个业务应用所储存的数据并不能做到完全互通,这就导致了数据孤岛,数据源既有结构化,也有分析化的,还有流式的,把这些商用大数据汇聚起来就成了数据湖,同样是存数据,这与以往的数据仓库是不一样的,二者的目标就不相同。例如,数据湖可囊括AI县相关的数据,这里面就包括了结构化数据、非结构化数据、半结构化数据,而数据仓库只能对结构化数据发挥作用。从调用来看,数据湖包括的信息通常可以被高频访问,为企业带来新的运营方向,而数据仓库的数据则是按需来调取。
Aberdeen的一项调查表明,实施数据湖的组织比同类公司在有机收入增长方面高出 9%。这些领导者能够进行新类型的分析,例如通过日志文件、来自点击流的数据、社交媒体以及存储在数据湖中的互联网连接设备等新来源的机器学习。这有助于他们通过吸引和留住客户、提高生产力、主动维护设备以及做出明智的决策来更快地识别和应对业务增长机会。
站在传统数据仓库的角度,数据脱格和数据解耦是必备的动作,这不是在原有生产系统所进行的,而是发生在数据仓库中,而在大数据时代这个动作就变成了数据湖,对元数据进行管理。对象存储有了元数据管理,用户可以拥有更大的数据湖。在完成数据脱格的时候,能够把数据有效管理起来,为后续的数据质量治理、数据管理提升打好基础。
事实上,从大型机时代的DB2到后来的关系型数据库,再到数据仓库、商业智能,最初就是以批处理、集中式的方式去解决结构化数据的处理需求,直到商业大数据的成熟使得数据分析有了更大的价值。不过在数据湖逐渐出现之后,传统集中化的处理开始难以应付大规模数据,于是就有了以Hadoop为代表的分布式处理技术。
Google曾做过一项调查,数据科学家仅有少数时间在写代码,更多的时间放在了数据抽取、数据清洗、数据治理等“数据管道”的工作上。由此可见,一个多功能、智能化、高效易用的管道对于帮助数据科学家提升工作效率、挖掘数据价值有着关键作用。
实时性、智能化、高弹性,使得云上构建数据湖成为了很多用户的选择。ESG研究发现,39% 的调查对象认为云部署主要用于分析,41%认为用于数据仓库,43%认为用于Spark。此时,数据湖的无缝传输和稳定性变得更加重要。以AWS为例,其要做的第一步就是将数据移动到云中。要知道,带宽和传输速度的物理限制在不会造成重大中断、高成本和长时间的前提下,限制了移动数据的能力。
然而在数据的传输过程中,SSL协议会被用来解决安全问题。通常,SSL协议层在TCP/IP层和应用层之间,可以使用不对称加密技术实现会话双方信息的传递,能够保证完整性和私密性,以及识别对方的身份。例如,配置服务器的SSL不仅需要验证用户身份,还要求浏览器提供用户证书。之后,客户端会检查服务器证书,如果检查失败,则不能建立SSL连接。如果成功,则继续。
可以说,云计算时代的大数据面临的威胁与日俱增,而如何给予用户安全感是云服务商要思考的问题。一方面,要让用户掌握对数据的控制权,采取多级加密验证机制,让用户能够监测到文件创建以来的元数据,另一方面也要做好健全的安全赔付机制,这样才会让用户放心地将数据迁移上云。