编程,还是可视化交互式分析

企业动态
作为全球生命科学领域数据分析和研发改善的领导者,SAS的这一举动毫无疑问将引领全球生物统计分析的方向,也令整个产业界重新思考,生物统计及其在药物、卫生等领域的应用将走向何方?

2009年,SAS公司在北美发布了全新的JMP/SAS CLINICAL产品,内部人士认为JMP/SAS Clinical产品是SAS针对生命科学领域的“下一代数据分析平台”。作为全球生命科学领域数据分析和研发改善的领导者,SAS的这一举动毫无疑问将引领全球生物统计分析的方向,也令整个产业界重新思考,生物统计及其在药物、卫生等领域的应用将走向何方?

SAS的生命科学领域新动向

前SAS生命科学资深科学家,现任JMP/SAS CLINICAL产品经理的GEOFFREY MANN在今年年初举行的JMP/SAS CLINICAL新版本发布会上,展示了这一产品是如何改善临床试验和药物评审等各个环节数据分析的。在“探索临床试验数据背后的隐藏模式,来自 SAS——临床数据分析软件标准”这一话题下,他展示了新一代生物统计分析的方向和耐人寻味的诸多细节:

JMP/SAS Clinical是全球首款全面支持CDISC数据标准的软件。而SAS作为CDISC的积极参与者,在推广CDISC应用上自然是不遗余力。JMP/SAS Clinical产品在功能全面性、先进性和易用性上配置丰富,其组成模块包括:

− SAS Clinical Standards Toolkit
− SAS BASE2
− SAS ACCESS to PC Files
− SAS Genetics
− SAS GRAPH
− SAS IML
− SAS STAT
− JMP Life Sciences SAS components 12=
− SAS Integration Technologies

SAS Enterprise Guide (此为可选项,仅仅适用于客户端而非服务器端)
− JMP
− JMP for Clinical

这一共十二个模块涵盖了生命科学领域所需的数据整理、数据分析、SAS编程、JMP数据可视化图形界面等全部内容。其安装模式与其他传统SAS模块一样,既可以单机安装,又可以客户端、服务器的模式安装。尽管SAS对这个打包产品的价格三缄其口,但一些迅速购买该产品包的客户透露“和以往相比,其价格令人惊喜”。对于价格敏感型客户来说,厂商这种为推广新策略而进行的促销的确是降低采购成本的好机会。

同时,SAS公司网站也宣称“JMP/SAS Clinical是JMP(药物评审员的不二之选)和SAS(制药业生物统计学家的标准分析与报告工具)的完美结合”。至此,SAS的策略可见一斑。

功能上,JMP/SAS Clinical能通过JMP菜单进行“point,click and discover”式数据分析,所有鼠标操作会在后台自动记录为JMP程序,以便反复调用;也可以直接沿用过往已经写好的SAS程序;对于SAS程序员来说,还可以继续编程。以前SAS给人的大致印象基本上是程序员和统计学家的工具,而其他业务人员(比如药物评审员、临床医生、流行病学家、生物测定小组成员,数据监察员和任何想理解临床研究结果的人)使用传统SAS软件的准入门槛教高,学习曲线相对陡峭而难于尽快熟练掌握。JMP/SAS CLINICAL的使命似乎不仅仅在于取悦传统用户,让分析和编程工作更简单和高效,其精美的图形也很有利于对统计结果的解释和沟通,还在于让大量非统计专业人员得以轻松使用SAS强大的统计分析性能而又不必经受漫长而痛苦的学习和培训过程。

下一代数据分析?

那么,所谓的“下一代数据分析平台”,其实就是以生物统计所常用的SAS模块为基础,对软件进行了改造和封装,辅之以行业标准和优化的分析能力,降低使用门槛,提升专业性,在深度和广度两个维度同时发力。笔者个人理解,“下一代”的提法应该和SAS基本模块多年来在用户友好、可视化、交互性分析等方面的进展较慢有关,而JMP在易用性,交互性、探索性数据分析(EDA)等方面与传统SAS模块(如SAS GRAPH)相比可谓后来居上,正好在这些方面提供了很好的补充。而这些方面多年来也一直是很多传统统计软件倍受用户抱怨的地方:难学,难用,展示效果也亟待提升。

比如,在临床试验的药审工作中,美国FDA要求对于受试对象的年龄、性别、种族等信息进行分析,并以如下图表的形式展示:

 


 
而在JMP/SAS CLINICAL中,既可以用上述图形/图表展示,交互式的数据分析又可以通过点击图形中SEX变量下的M或者F,被点击选中的这些数据的在其他变量维度(Age, Race等)中会自动变色,对应的数据行在后台也被同步选中,病人情况的展示也会很清晰和完全;若要进行下一步的子集化、分组以便进行进一步探索也很方便。


 
在“韦氏图”和“火山图”里,无论是考察个体之间的关系还是探索不良反应的程度,JMP/SAS CLINICAL提供的图形都比传统图形手段更为清晰直观,交互性也更强,为在这些重要分析步骤有效地中“探索”和“发现”临床数据中的重要信息提供了可能。


    
据笔者了解,JMP作为SAS旗下主打数据分析可视化和交互性的软件部门,一直在走一条与传统SAS模块化策略不同的道路:敏捷计算+可视化+交互式。JMP继承了SAS在分析和建模领域的巨大优势,沿袭了SAS的数据挖掘和传统统计功能,在DOE(试验设计)等高级分析领域一直独占鳌头,近10年来在图形和交互式分析方面也有明显的进步。其运行性能(速度、稳定性等)堪称优秀,所处理的数据量也从原先的42亿行65535列升级到软件本身对数据无限制――也就是取决于内存大小。

那么,这一新动向能否给SAS带来预期的效果?其背后是否有更高层面的策略?

也许先看看其他行业会帮助我们理解这一动向。在对分析能力和数据吞吐量更高的银行业,SAS的数据挖掘平台长期以来一直是行业标准。2011年5月初,SAS总部宣布一项新的产品战略,在SAS ENTERPRISE MINDER(企业级数据挖掘平台)上加入JMP产品。并且,和这个产品策略相对应,推出了“探索性数据挖掘”的概念。 这个举动不由令人产生简单的联想:JMP/SAS Clinical 和SAS ENTERPRISE MINER两个SAS引以为傲的拳头产品和核心竞争力,都已经和JMP融合,除了这两款拳头产品,SAS旗下的一系列主打产品包括SAS VBI, SAS VDD,SAS MLA等,都是在传统SAS模块的基础上融合JMP而形成的新一代产品。这种把传统数据分析融入可视化交互式数据探索的举动,是不是SAS新的产品策略?

反观全球统计分析业界,商业智能新秀TIBCO并购了SPLUS和SPOTFIRE,IBM并购了SPSS和COGNOS,ORACLE并购了Hyperion――这些并购是否昭示着传统统计分析与图形、可视化能力的结合这一趋势已经在全球范围内实实在在地发生了呢? 站在这样的角度,跳出“生物统计”的小圈子,不难发现,数据分析正走向一个全新的方向:分析可以是文本的,图形的,而不再只是数据表的。

就此,笔者相信,“下一代数据分析”这种提法,无论是否真正成为几大巨头的产品策略并不重要。事实是,在数据分析领导者JMP/SAS和传统IT巨头IBM, ORACLE等的推动下,大幕已经就此拉开。这一潮流的第一登陆点,似乎并非金融和电信,而是我国十二五规划中重点发展的生物医药行业。

中国生物医药数据分析的机会与挑战

和其他科技领域一样,我国的技术界习惯了“引进一流技术与设备”,或者“业界老大用什么,我们就用什么”。这种依赖国外同行的选择来降低决策风险的做法,一段时期曾经起到过相当积极的作用。只是在创新领域,永远模仿竞争对手的做法,只能产生跟随者,而不是创新。

我国药品新的注册管理办法的核心就是要保证药品质量,鼓励新药创新和遏制低水平的重复。生物制药的创新和自主研发,需要药企和研发机构在以临床医学(包括治疗、诊断、伦理等)为基础,并丰富以药学、药理学、毒理学、药代动力学、生物统计、现代生物技术、信息学等的各学科方面都有足够的积累和深入研究。在数据分析方面,先进的生物统计方法加上计算机软硬件技术的飞速发展,可以实现由工具层面的升级到生产/研究方法的革新。

反观国内大学的生物统计和其他类型的应用统计教学,基本上都是数学学科的延伸。阐述数理统计原理的要求,远远高于了应用数据分析方法的要求。这一特征使得我国培养的数据分析人员,在数据分析的应用和拓展方面,创新能力不够,思路课本化、程式化。在商业领域,无论是临床数据分析还是银行数据分析,都更倾向于:

1.采用SAS编程的手段进行分析,过于强调编程的必要性和重要性
2.分析过程仍然以“带着问题找结果”的逻辑展开
3.在分析结果的沟通和展示上,以部分传统统计分析图形和数据表为主
4.部分数据分析和对结果的解释存在普遍误用乃至于错误

创新的一大特征就是绕开模式思维的盲点。摆脱传统思路和模式,用全新的方法、手段、工具去开展工作,其本身就是创新的一部分。药物研发水平的升级和创新密不可分。在数据分析层面,在部分保留传统编程手段的同时,恰当引入可视化、交互式而又更加强大的数据分析能力和方法,能否为我国生物制药领域的研究和发展提供一些创新的源动力?我们拭目以待。

责任编辑:张玉 来源: 51CTO
相关推荐

2024-08-02 10:30:39

StreamlitPython库数据驱动

2015-10-14 17:59:53

Google数据探索交互开发

2021-06-09 11:26:37

BokehPython可视化

2023-12-18 15:02:00

PyechartsPython数据可视化工具

2017-01-05 15:06:23

2020-12-11 08:00:00

数据可视化工具大数据

2020-12-20 17:40:04

机器学习可视化网站算法

2020-12-31 10:29:05

数据可视化可视化工具编码

2024-03-07 12:53:00

大数据组件

2020-06-18 10:02:25

Python 开发编程语言

2017-04-17 10:25:29

神经网络可视化ActiVis

2020-03-11 14:39:26

数据可视化地图可视化地理信息

2021-02-07 20:23:09

GoogeBlockly可视化编程

2021-02-20 09:14:35

PythonPygal可视化

2022-04-29 10:24:38

Inform 7开源自然语言

2013-09-22 16:22:21

2010-02-24 09:39:25

Python交互式

2014-07-16 09:32:34

Pinterest

2016-12-15 13:51:30

开源数据可视化

2017-02-07 15:54:14

数据可视化数据分析
点赞
收藏

51CTO技术栈公众号