利用 Spark 进行数据分析和性能改进
Spark 是一种前景无限的大数据分析解决方案,专为使用内存处理的高效集群计算而开发。其目标使用模型包括整合了迭代式算法的模型(也就是说,能够受益于将数据保留在内存之中,而非将其推送到杨恩较高的文件系统的模型)。 在动手尝试这些练习之前,请务必理解 Spark 的集群计算方法及其与 Hadoop 的不同之处。请阅读最近发表的一篇相关文章 Spark,一种快速数据分析替代方案,以便了解 Spark 的背景知识和使用方法。
责任编辑:凌云
来源:
IBMDW