大数据处理技术可以分为批处理与流处理两种模式。批处理系统具有先存储后计算﹑数据的准确性和全面性要求高等特点。流处理系统往往不要求结果绝对精确而注重对动态产生的数据进行实时计算并及时反馈结果。
Hadoop是当前最流行的大数据技术架构,包括Hadoop分布式文件系统( HDFS)、数据分析框架 Map-Reduce、数据挖掘工具 Mahout等,目前很多大数据处理都是基于Hadoop平台之上。
数据流处理的特殊性以及大数据处理的时效性等各种限制使得传统的实时处理技术已不能够满足需求,因此,大数据的流式处理成为了天文学学者的研究热点。当前,流式数据处理的计算框架主要有Storm,Spark Streaming等,并且在互联网行业得到了一定的应用,但在天文学研究中尚鲜有应用。
国内外在天体系统运行状态监测大数据技术研究和应用方面已有成效,但仍处于起步探索阶段。天体系统的运行状态数据具有持续不断、数据量大、规模及顺序无法预知及时效性高等特点,形成了大规模的数据流。而数据流的价值会随着时间的流逝而减少,如何快速地从数据流中发现异常数据,为天体系统的运行与安全状态监测提供重要依据具有重要意义,因此可以将大数据技术引入到天体系统运行异常状态检测中。目前在天体系统运行异常状态检测中应用的大数据技术有时间序列分析、马尔可夫模型、遗传规划算法、分类算法等,但这些研究尚处于探索阶段,尚未形成完善、成熟的理论体系。