大数据分析近年来逐渐成为预测分析技术的代名词。这使得越来越多的人以为,任何用于预测分析的系统都必定涉及大数据;而反过来,任何大数据系统自然也一定会支持预测建模。
而事实上,这两者并非一回事。尽管通过访问海量数据与新的数据类型,开发出更好的预测模型的能力会得到显著增强。但是分析管理人员与其团队需要更多考虑数据的构成,以及在大数据环境中如何管理这类基础性问题。
首先,让我们审视预测分析过程本身。在主流的预测分析过程中,会涉及到某些与业务应用相集成的统计分析与模式匹配,从而推动运营决策与操作。但是,预测模型的实时需要多项步骤,其中包括:
数据准备工作,清理、转换与重组数据,使其符合预测分析或机器学习算法所需的格式。包括分析数据、寻找异常、确定应用和待修复的数据质量标准类型、设计适合分析的数据模型,并执行转换,使数据集保持一致。
预测模型开发,包括创建试用数据集,选择特定算法进行处理,从而测试某些分析模式。这一步需要有计划地进行,将被分析的数据分为不同的子集,包括试用数据集和一份或多份测试数据集。
测试过程,即在各模型上运行测试数据集,对性能加以评估,从而确定哪种模型能够得到最佳效果。
集成与实施,选中的模型被纳入生产业务流程、实际上线、并产生真实的分析结果,以此采取行动。
调整所选的预测模型以确保其持续有效与准确,重复分析、不断更新。
大数据带来特定的挑战
接下来,让我们看看大数据环境中出名的3V数据——即容量,多样性和速度——并思考在大数据环境,预测分析过程中必须解决的一些特定挑战。
数据容量。除了那些显而易见的,与管理与海量数据有关的考量因素,包括数据获取、分段和防止延迟,你必须有精简的流程,从而支持各不同阶段的分析过程。例如,你需要能够提取到可以使用不同算法快速分析的试用数据集,也需要能够充分反映整体数据的那部分信息。
数据的多样化。企业越来越多地得到各式各样的数据输入,从传统的结构化数据到日益增长的非结构化数据类型。而且,随着更多的非结构化数据流成为业务流程中不可或缺的组成部分,例如对推特信息流的持续监测可以识别客户情绪,非结构化数据正成为预测模型必不可少的数据源。这意味着你必须拥有一套非常强大的流程,用于扫描、分析和处理非结构化数据,以将其转化为可用作分析算法输入的数据集。
数据的速度。处理大量不同数据所带来的复杂性,与更快速的数据流输入速度叠加。使得你不仅必须能够处理输入速度更快的数据源,而且需要应对这些数据源的结构或格式可能会发生的变化。更要命的是,这种变化通常难以预测,因此迫切需要做好数据分析与准备工作。
智慧的分析策略
设计大数据系统预测分析策略能够应对上述挑战,以便你可以成功管理或优化流程中的关键点。
例如,考虑如何将庞大的数据集合转化为容量更为合理的试用数据块。在某些情况下,最佳实践是,不要随机选择试用数据集,而是通过过滤器来减少数据集合的大小,这样或许会消除特例的那部分记录。另外一些情况中,你的目标可能是增加大数据系统的计算资源,使分析算法有能力处理更大的训练集——并且无需过滤任何记录。
另一个例子是,解决数据在速度方面挑战或许意味着扩大系统对数据流的吞吐能力,从而可以让每个数据逐一进入预测模型;当然,你同样可以降低模型的复杂度,以便更快速地加以执行。
当涉及到设计、工程量、复杂性和成本这些问题时,每一次选择都意味着相应的取舍。一组更精确的预测模型可能需要更多的处理和存储资源,但分析带来的优势或许会超越所增加的成本。又或者,你所在的企业组织也许可以从并不复杂的模型中,以较少的处理资源,获得大数据应用中的预测分析能力。
预测分析必须与大数据处理相结合,从而为分析管理人员、甚至企业高层提供所期待的结果。要做到这一点,就必须弄清楚如何在预测分析带来的收益与大数据所需的性能和管理之间做出平衡。