作为大数据存储问题的解决方案,NoSQL 倍受赞誉。由于存储方面的限制以及缺乏灵活性的流程,SQL 以及其他常见关系数据库无法处理非结构化大数据。而 NoSQL 则倍受支持者的广泛赞誉,因为它可以存储无限量的数据,并能处理不断变化的数据架构。但 NoSQL 并不能替代以前的分析技术。它是一款附加工具,专门处理新型数据所带来的新问题。
以往,您不得不选择在某一时间对企业至关重要的数据,并舍弃其余数据。而如今,各家企业均不希望舍弃大数据,因为这些大数据可能会在日后很有价值。利用 NoSQL,您便可以经济高效地存储所有数据,以供将来使用。
缺乏灵活性也是一个问题。在典型数据库体系架构下,很难更改数据架构。如果发生意外变更,或者需要重新对数据模式进行排序,则系统可能会发生中断,并且问题可能会对下游产生影响。而使用 NoSQL 数据库,则无论架构如何,您均可注入数据。
请按照下面三步进行操作,进一步展现大数据的价值:
1.了解数据。通常,您掌握有大量数据,而在这些数据中,有些是您所需的,而另一些则对您毫无用处。如果数据来自不同的来源,您仍需要了解数据集之间的关系。“读取时架构”技术并不意味着您无需了解数据集之间的关系。相反,您必须确定并修复两个或更多文档或数据集之间的嵌套或联接关系。这时,对于分析至关重要的属性应尽可能地符合标准,才能获得有效的初始结果。
2.处理数据。接下来,使用具有 NoSQL 数据库或 Hadoop 处理能力的系统来分析您的数据。通过筛选您的综合数据,并从中挖掘价值。在注入并关联相关数据后,尽早确定该数据在分析中的用途。如果数据研究人员认为数据没有用处,则您就不需要在数据的结构化、清理和准备环节上浪费时间。如果该数据无法解决您的问题,请跳过第 3 步,并返回第 1 步,了解新的数据集。但是,请保留已有数据,因为它可能会在日后用到。
3.转换数据。如果您认为数据有用,请对数据进行准备,以便进行深入处理,并由数据研究人员之外的更多分析人员使用。如果您采用手动编码方式进行必要的转换、标准化和清理工作,则此方法通常速度缓慢,并且不能长久使用。应使用一种工具来处理不同的数据源,其中包括复杂数据以及来自 NoSQL 数据库的数据。然后,将它们转换为可供用户阅读的有用信息。
这就像淘金。为了找到一盎司的黄金,您必须挖掘数吨矿土。只要您具有一部强大的引擎,能够筛选掉没有用的“渣土”,并能不断创造性地发现相关业务问题,您就能找到有价值的“黄金”。