SAS公司的可视化统计发现软件JMP即将正式发布最新的JMP10版本,这不仅让全球的JMP粉丝欢呼,也让越来越多的中国数据分析爱好者充满期待。从JMP官网上的信息来看,这次版本升级改善和新增了十多项功能领域,涉及上百个小项,力度山大从2006年推出JMP6开始,JMP在6年中已经推出了4个新的版本,SAS公司的研发实力可见一斑。
笔者有幸成为JMP10的测试版用户,结合自身的使用体验以及和JMP研发人员的交流,从众多新功能和新改进中选出最有价值的JMP10十大新功能,与同道中人分享。
1 iPad版的JMP (JMP iPad)
JMP本来就有支持Windows、Macintosh等不同操作系统的版本。现在,许多人正在从传统笔记本电脑向平板电脑迁移,,JMP10也与时俱进地推出了可以在iPad上运行的JMP版本,赋予了数据可视化以“移动性”。试想,拿着IPAD在Retina屏幕上给老板或客户可视化地展示数据中的发现,是不是很炫?这下,JMP进一步拉近了专业统计分析与非统计专业人士的距离,连果米们也可以方便地享受到Mobile BI(移动商务智能)的乐趣了。
2 图形生成器 (Graph Builder)
“图形生成器”是JMP中最具创新概念的交互式可视化探索性数据分析工具,也是众多JMP老用户的最爱。JMP10的“图形生成器”功能有了极大的增强。比如,作图区上方新增的图形图标栏,可以让用户一目了然地知道目前已选择的数据可以做哪些图形,必要时可以快速在不同图形之间进行切换。左侧新增的统计量控制面板,可以让用户方便地根据自己所关心的统计量显示图形结果。如果有了某种发现而想进一步进行更深入的分析,可以通过菜单命令“启动分析”直接从“图形生成器”进入“拟合模型”分析平台。
3 控制图生成器 (Control Chart Builder)
控制图是质量管理与工程技术中的一个必备工具,JMP10对质量及流程数据分析非常重视,专门开辟了一个“质量和过程”菜单组,整合了许多相关的统计分析工具。其中最引人关注的就是“控制图生成器”,它在控制图的绘制过程中融入了拖拽式操作、交互式图形展现等新特性,把原先相对枯燥的控制图变得妙趣横生、创意不断。更重要的是,工程师不但可以用控制图判断流程是否稳定,还可以用控制图诊断流程不稳定的关键原因。
4 应用程序生成器 (Application Builder)
如果说“图形生成器”能够让你随心所欲地进行可视化数据探索,那么新增的“应用程序生成器”则可以让你轻轻松松地编制一个规模更大的、包含各种统计图形和报表的工作报告。要知道,以前定制个性化报告可是要JSL编程(JSL是JMP自带的编程语言)的呀。从此以后,不会编程或者讨厌编程的JMP用户也可以在鼠标点击之间即刻享受定制开发的成果。而且,所有得到的结果都会自动生成可重复运行的脚本程序,以便数据更新时能够立刻更新工作报告。
5 可靠性预测 (Reliability Forecast)
可靠性分析是JMP近几年来进步最快的分析模块之一,这次JMP10又不无例外地增加了两个平台:“可靠性预测”和“可靠性增长”。其中,以“可靠性预测”最为令关注可靠性分析的研发、售后服务以及负责供应链计划等工作的工程师和经理们欢迎。它用图形、动画等浅显易懂的形式让不懂可靠性复杂原理的分析人员也能根据已有和将有的产量(或销量)、已有的返修量、保质期的长短预测将来一段时间内的产品返修量,以便未雨绸缪地做好应对方案。
6 评价设计 (Evaluate Design)
实验设计DOE一直是JMP的一张王牌,其中的“定制设计”更是让产品研发、持续改善、市场调研等相关数据分析人士爱不释手的实验设计利器。在实验设计方面,JMP10除了对“定制设计”进一步优化之外,更重要的是推出了“评价设计”平台。它可以对任意一个已有的实验方案进行诊断和评估,以确定是否可以直接利用它的历史结果数据进行分析,还是在需要补充实验数据后再进行分析,或者对任意两个已有的实验方案进行比较,找出相对最佳的实验方案。
7 比较数据表 (Compare Data Tables)
很多人只知道JMP是个强大的数据分析工具,却忘了JMP还是个强大的数据整理工具。JMP10在数据整理方面也增加了很多可圈可点的地方。比如新增的“比较数据表”功能,允许用户对任意两个结构类似的数据表进行比较,可比较的内容包括:数值数据的比较、字符数据的比较、排列顺序的比较、行列信息的比较等等,还可支持“模糊比较”!要知道以前我做这种工作时可辛苦了,眼睛看花了,还是遗漏了不少错误,结果吃力不讨好。有可这个功能,就可以很轻松地找出两个数据表之间到底哪些地方有怎样的差异了。
8 本地数据过滤器 (Local Data Filter)
数据过滤器是从JMP8起就有的数据筛选工具,在选择部分数据后立刻更新分析时十分方便。但JMP8和JMP9的数据过滤器的过滤作用对所有的分析结果都起作用,所以当用户需要有的报表反映原数据表中的数据分析结果,有的报表反映的过滤得到的数据的分析结果时,就会不太方便。现在这个问题解决了,使用JMP10提供的“本地数据过滤器”后,它所产生的过滤作用仅对指定的一张报表起作用,不会对其他报表产生影响。
9 列转换程序 (Column Switcher)
还记得因为要对许多不同的列变量进行相同的分析而不得不进行一次又一次重复的操作吗?你可能曾经为此浪费了大量的宝贵时间。有了JMP10提供的“列转换程序”功能,就不会有这样的烦恼了,因为它可以协助你自动化地执行这种工作,哪怕面对的是一千多列的变量。而且,JMP10提高了对多核CPU的利用效率,计算速度也因此得到了极大的提高。强烈建议大家找一个海量数据表(至少是大于一百万行、五十列的数据表)来运行一个“分布”命令,体验一下在海量数据中轻松冲浪的奇妙感觉。
10 模型比较 (Model Comparison)
统计专业人士可能在在一年半之前就听说JMP推出了支持64位操作系统、具备更多数据挖掘工具的JMP加强版:JMP Pro。与JMP10同步推出的JMP Pro10在高级统计分析方面也有很大的完善,比如有Bootstrapping算法、偏最小二乘法的交叉验证、模型比较等。 “模型比较”可以对前期分别根据回归、决策树、神经网络等方法构建的模型进行统一的量化比较,并从中筛选出最好的模型,这对于数据挖掘、统计模型优化需求的业务分析人员以及大学统计学专业的老师和学生比较有帮助。