结合优选算法利用可视化进行高级数据分析的五个步骤-51CTO.COM

作者|Carl Johan Ivarsson(Qlucore公司)

选文|寒小阳

翻译|吴蕾

校对|任杰

【导语】在大多数科学研究中，大量的实验数据的统计分析工作通常由计算和统计方面的技术专家完成。遗憾的是，这些专家不是相应领域研究的专家，这可能导致分析中的缺陷。如果，研究人员本人能够轻松使用工具和方法来处理和分析数据，那么肯定会获得丰富研究成果。

问题

许多科学家都面临着共同的挑战，特别是那些分子生物学领域科学家，他们的实验产生了大量的数据。对于如此海量的数据，人们需要软件工具来有效地解释其数据。

如今，面临日益增长的大数据，计算机软件仍大多侧重于数据处理，通过面向技术专家的用户界面，以标准的统计方法来呈现数据结果。因此，科学家/研究者很难深入解释这些数据，大量的数据分析工作只能由专业的生物信息学家和生物统计学家来执行。然而，这个模式并不尽如人意，因为通常情况下，科学家才是最了解该研究领域的人。

解决方案

结合优选算法，可视化方法可以在某种程度上应对这些挑战，并可使更多使用者去探索和分析数据。可视化技术，给大家提供了一种快速识别重要结构和模式的积极有效的方法，而且反馈信息也很易于理解。从团体化的视角来看，这也是一种很重要的方法，因为它使更多的科学家能够分析和讨论实验数据和结果，进而推动创新。

当使用可视化来识别数据中新的子组数据和模式时，我们建议使用五步法来确保可重复的显著的结果。此分析步骤的是出于多方面的考虑，最基本的意图是尝试在数据中识别全新的组或模式，另一方面是为了探索数据，并且仅检测预期的模式，这是一种质量控制的好办法。通过应用这个五步法，科学家就可以研究大量复杂的数据集，而不必成为统计专家。该方法在下面更详细地描述，但是一些基本概念需在此交代清楚，它可应用于任何类型的生命科学行业数据，可以是高维度数据和样本数据，例如 RNA-seq，基因表达阵列，蛋白质组学，DNA甲基化，代谢组学等等。

***步：降低数据维度

首先，高维数据需要被降阶到较低的维度，使得其可以进行3D绘制。为此，我们建议使用主成分分析(Principal Component Analysis, PCA)的方法。另外，还需要用数据染色工具来增强信息，并用过滤器等工具来筛选数据集的部分。

[[177817]]

在五步法的起始阶段，研究人员会对活动数据集中存在的***信号进行检测和去除。一旦识别了该信号就可以去除它，以便查看是否存在其他模糊但仍然可辨认的信号。移除一个强信号，通常会导致活动样本和或变量(特征)的减少。

第二步：评估信噪比

该过程的第二步是通过使用PCA、投影分数和随机化来评估数据中的信噪比。投影分数会显示检测的信号或模板的视觉强度。

[[177818]]

第三步：方差滤波去除噪声

第三步是通过方差滤波去除“噪声”。如果研究人员可以在其活动数据集中看到显著的信噪比，那么他们应该尝试去除一些最可能贡献噪声的活跃变量。为了识别所需的方差过滤量，用户可以使用由PCA可视化和投影得分的方法来获得方差过滤量。通过测试多个不同的方差设置，可以更容易找到清晰的模式。

第四步：统计测试

[[177819]]

第四步，统计测试是可选的执行步骤，可以应用于五步过程的任何/所有其他阶段，也就是说，可以在初始分析期间执行，或者当某个步骤重复的时候执行，或者在步骤结束时执行，或者不做也可以。被测数据组可以是预定义的，或者是在迭代过程中确定下来的。 (建议对第二个数据集去验证发现的数据结构和数组)

第五步：搜索子组或群集

***一步，使用图形来细化子组或群集的搜索。例如，在网络或图形中连接样本，使其可以搬升至更高的维度(即，大于三个维度，可以用3D PCA图来表示)，因为在样本图中创建的图形是基于所有活动变量的空间距离，所以它可以使用户对数据结构有更深入的了解。

重复这五个步骤，直到无法再找出新的数据结构。

就此方法来操作，可视化可以作为研究人员的强大工具。数据能够以清晰的方式可视化，科学家可以轻松识别那些有趣和/或重要的结果，而不必依赖于专业的生物信息学家和生物统计学家。相反，科学家可以与生物信息学家合作，去收获更有意义的成果。

来源：http://www.qlucore.com

【本文是51CTO专栏机构大数据文摘的原创译文，微信公众号“大数据文摘（ id: BigDataDigest）”】

结合优选算法 利用可视化进行高级数据分析的五个步骤

结合优选算法利用可视化进行高级数据分析的五个步骤