做数据分析必须学R的4个理由-数据分析需要学什么

R 是一种灵活的编程语言，专为促进探索性数据分析、经典统计学测试和高级图形学而设计。R 拥有丰富的、仍在不断扩大的数据包库，处于统计学、数据分析和数据挖掘发展的前沿。R 已证明自己是不断成长的大数据领域的一个有用工具，并且已集成到多个商用包中，比如 IBM SPSS® 和 InfoSphere®，以及 Mathematica。

[[150520]]

本文提供了一位统计学家Catherine Dalzell对 R 的价值的看法。

为什么选择 R？

R 可以执行统计。您可以将它视为 SAS Analytics 等分析系统的竞争对手，更不用提 StatSoft STATISTICA 或 Minitab 等更简单的包。政府、企业和制药行业中许多专业统计学家和方法学家都将其全部职业生涯都投入到了 IBM SPSS 或 SAS 中，但却没有编写过一行 R 代码。所以从某种程度上讲，学习和使用 R 的决定事关企业文化和您希望如何工作。我在统计咨询实践中使用了多种工具，但我的大部分工作都是在 R 中完成的。以下这些示例给出了我使用 R 的原因：

R 是一种强大的脚本语言。我最近被要求分析一个范围研究的结果。研究人员检查了 1,600 篇研究论文，并依据多个条件对它们的内容进行编码，事实上，这些条件是大量具有多个选项和分叉的条件。它们的数据（曾经扁平化到一个 Microsoft® Excel® 电子表格上）包含 8,000 多列，其中大部分都是空的。研究人员希望统计不同类别和标题下的总数。R 是一种强大的脚本语言，能够访问类似 Perl 的正则表达式来处理文本。凌乱的数据需要一种编程语言资源，而且尽管 SAS 和 SPSS 提供了脚本语言来执行下拉菜单意外的任务，但 R 是作为一种编程语言编写的，所以是一种更适合该用途的工具。

R 走在时代的前沿。统计学中的许多新发展最初都是以 R 包的形式出现的，然后才被引入到商业平台中。我最近获得了一项对患者回忆的医疗研究的数据。对于每位患者，我们拥有医生建议的治疗项目数量，以及患者实际记住的项目数量。自然模型是贝塔—二项分布。这从上世纪 50 年代就已知道，但将该模型与感兴趣的变量相关联的估算过程是最近才出现的。像这样的数据通常由广义估计方程式 (general estimating equations, GEE) 处理，但 GEE 方法是渐进的，而且假设抽样范围很广。我想要一种具有贝塔—二项 R 的广义线性模型。一个***的 R 包估算了这一模型：Ben Bolker 编写的 betabinom。而 SPSS 没有。

集成文档发布。 R ***地集成了 LaTeX 文档发布系统，这意味着来自 R 的统计输出和图形可嵌入到可供发布的文档中。这不是所有人都用得上，但如果您希望便携异步关于数据分析的书籍，或者只是不希望将结果复制到文字处理文档，最短且***雅的路径就是通过 R 和 LaTeX。

没有成本。作为一个小型企业的所有者，我很喜欢 R 的免费特定。即使对于更大的企业，知道您能够临时调入某个人并立即让他们坐在工作站旁使用***的分析软件，也很不错。无需担忧预算。