迎风而上2021：如何破题五大数据挑战？-51CTO.COM

白驹过隙，时光荏苒。2020年对于我们所有人来说都是不平凡的一年。我们见证了COVID-19疫情的肆虐，也体会了战疫中科技的能量。不仅应对疫情，科技同时在改变着我们疫后生活、工作的方式，这其中，数据的存储和管理，也呈现出更多的新态势，需要我们去关注并给与及时应对。

[[361241]]

1. （静态和动态数据）分层安全的重要性日益提高。

超大规模软件生态系统不断发展，使得企业和站点在不具备基础设施所需联网能力的情况下，也能够在较小的“原子单元”上开发和部署应用。越来越多的云原生应用在全球各地的联网点或托管设施上运行。企业必须在流程的每一步对数据进行保护，在更加分布式的部署模式中妥善保护用户静态和动态数据。

给企业领导者的建议：在许多行业中，为防止来自内、外部的各种威胁，静态数据加密逐渐成为强制性要求。也许今天在您所处的行业中静态数据加密还不是一项强制性要求，但将来终归会如此。因此，希捷建议您未雨绸缪，尽快采用加密硬盘，以确保不会造成业务中断。

2. 企业更广泛地采用对象存储。

随着数据的爆炸式增长，对象存储开始成为大容量存储的标配。相较于传统的文件存储而言，对象存储具有诸多优势，包括规范性元数据、可扩展性和无分层数据结构。系统得益于数据集蕴含的更高智能，而对象存储恰能够提供这种智能。存储类型包括块存储、文件存储和对象存储。对于对性能十分敏感的许多任务关键型应用来说，块存储至关重要；文件存储多年来一直服务于传统应用，并可提供可靠的架构；而对象存储则侧重于新应用的开发，它可以与块存储相结合，以共生的方式提升系统规模和性能。许多传统文件应用也在向对象存储基础设施迁移，以充分利用其提供的规模效益。

给企业领导者的建议：由于具备较高的经济效率和可扩展性，对象存储正在迅速成为事实上的大容量存储标准，以快速补充和取代文件存储。此外，新毕业的程序员越来越多地基于对象存储接口来构建工作流程。我们应该多聘用这样的人才。如果您尚未将对象存储引入自己的数据中心，那么现在是时候采取行动了。

3. 可组合系统日益普遍。

将系统划分为独立单元，让它们能够与其他独立单元进行组合，这并不是新想法，但是在开源的基础上广泛采用可组合系统才刚刚起步。Kubernetes是一个开源系统，用于自动部署、扩展和管理容器化应用，是上述发展趋势的核心。开源是应用开发的未来，因为它能够让更广泛的社区携手解决许多行业共同面临的挑战，并允许通过开放式架构部署特定领域解决方案。将硬件进行组合以便更好地满足软件或业务需求，是一个必然的发展方向。

给企业领导者的建议：今天的数据中心正朝着可组合的方向发展，因为它可以更加轻松地部署及重新部署资源，而无需先验配置以及计算、内存和存储之间的静态配置比率。容器和Kubernetes是可组合系统的核心机制，所有数据中心都应该着手采用这些技术，如果它们还没有采用的话。

4. 分层部署大容量存储（将热数据放在闪存上，而所有其他数据放在硬盘上）。

英伟达GPU设计将内存划分为不同的层级（寄存器、共享内存和全局内存），每一层有不同的属性。寄存器延迟较低，内存较小；全局内存延迟较高，提供更大内存。英伟达提供了一个软件界面，使用户可以充分利用分级内存和根据该架构优化的各种解决方案。同样，SSD和HDD也可以处于不同的层级。我们创建了太多有价值的数据，采用同构存储策略无法提高效率。

那么分级存储为什么重要呢？全部由高性能存储设备组成的存储系统成本会比预期高；而全部由大容量存储设备组成的存储系统性能又达不到要求。于是，分级存储应运而生：这种方式可以在成本和性能间取得最佳平衡。随着其他存储技术（例如存储级内存）的不断出现，我们迫切需要能够从各级存储中提取最大价值的架构。

给企业领导者的建议：如果预算无限充足，数据中心可以全部采用成本高昂的存储介质。然而遗憾的是，成本的现实打碎了幻想，我们不得不进行分级存储：热数据保存在高成本、高性能的介质上，而访问频率较低的数据则放在经济实用的大容量存储介质上。幸运的是，数据中心软件越来越擅长识别热数据和冷数据，并进行相应的迁移。如果您的数据中心尚未采用异构存储介质，那么您有可能损失了存储性能，或者付出了高昂的存储成本。

5. 形成性人工智能提升数据的可用性。

不仅数据的创建呈爆炸式增长，有用数据量也在迅猛增长；甚至由于人工智能/机器学习（AI/ML）的进步使得用户能够从已经归档的数据中获取更多信息，已归档数据也开始被激活。企业领导者必须做好准备存储比以往任何时候都要多的数据，用于训练各种模型，以便挖掘重要信息；同时由于数据的使用寿命有可能会延长，也要准备归档更多数据。形成性人工智能是一种使数据变得更具洞察性的手段。Gartner将形成性人工智能定义为“一种能够动态变化以响应具体情况的人工智能”。IDC将形成性人工智能视为“各种新兴人工智能及相关技术的总称，它可以根据情况的变化而动态变化。”由于依赖于能够智能地响应变化的灵活架构，形成性人工智能与分级存储趋势紧密相关。您在监控人工智能模型时有可能会收到信号说它发生了偏离。此时，您可以使用另外一个模型在硬盘层上搜索适当的训练数据，并将这些数据自动移动到闪存层，以加快训练速度。硬盘层也可能是对象存储，因此也与对象存储发展趋势有关。其优点既在于速度（因为数据会自动移动到快速存储层），也在于成本（因为您可以将数据以易于访问的形式存储在高性价比的硬盘上，以备需要时调用）。

给企业领导者的建议：机器学习的最新创新最终释放了期待已久的人工智能潜力。现在，这些机器学习技术需要使用更大的数据集，从而提取更精确的洞察。由于机器学习的未来发展和进步难以预测，所以企业从现在开始就应该保存尽可能多的数据，以确保将来能够使用最好的训练数据来进行各种分析。