目前,商业工具在数据虚拟化软件市场占据主导地位,但在数据管理和分析等领域,开源技术开始迎头赶上,比如D3.js数据可视化库,Leaflet地图库,再加上附加交互可视化功能的R语言(一种广泛用于统计分析的编程语言)。
当然,对于开源数据可视化工具也有一些批评的声音,例如有人认为这些工具的使用门槛太高,使用者必须具备大量代码知识,还要经过专门培训。不过,熟悉开源可视化工具的用户透露,随着技术部署的不断深入,这些可视化产品用起来会越来越得心应手。而对于R语言,很多软件供应商都为企业用户提供商业产品。
Paul Bradley是美国医保管理SaaS云应用供应商ZirMed公司的***数据科学家,他认为:“这些工具之所以开始流行起来,是因为它们成熟且可用。用户根本感受不到开源工具的限制,因为在触碰到限制之前就能完成大量工作。”Bradley是R语言的拥趸者,他介绍到,供应商RStudio公司针对R语言开发的同名图形用户界面就很友好,而且也不需要太多的代码知识。
Bradley的观点得到了Clement Brunet的认同,Brunet是美国保险公司The Co-operators的研究和分析主管。在波士顿举行的数据仓库研究院(TDWI)2015大会演讲上,Brunet表示:“有R语言在手,你可以走的很远。”他认为如果要在概念证明(POC)阶段开展实验性分析项目,之后再扩展到产品应用,那R语言简直是不二之选。而且随着R语言环境在本质上变得更加图形化,工作会越来越容易。
美国在线借贷公司Avant同时使用了商业化的商务智能(BI)软件和开源的数据可视化技术。该公司的BI负责人Charles Whittaker表示,任何能够帮助他节省数据可视化时间,让他能够集中精力进行数据分析的东西,他都感兴趣。他表示,D3库预建的图形正能满足他的需求,这些图形让Whittaker这样的用户“能够把资源集中在数据挖掘和数据科学上,而不是去创建酷炫的图表”。
如果要简化流程,咨询公司PowerTrip Analytics的联合创始人兼***数据科学家Stephen McDaniel建议使用具有省略数据发现功能的开源可视化工具,可以让用户专注于创建表格和图形。华盛顿大学开发的开源工具Lyra备受McDaniel青睐,他称之为“数据可视化领域的Photoshop”。
McDaniel介绍道,Lyra采用D3框架,D3框架是JavaScript文档的组合,需要用户执行一些手动编码,可以通过点选式(只要用鼠标点击而不用键盘操作就可以使用的容易上手的软件)界面自动完成任务。因为输出格式采用的是HTML、SVG或CSS等常见的网站语言,所以数据可视化结果很容易在组织中传播,也很容易发布到网上。他还表示:“这正是我们所需要的,现在我们要做的不是如何反复研究数据,而是如何构建具体的图形,把他们发布到网站服务器上,融入到内容中,让所有人都能使用。”