火爆的市场和酷酷的技术
据市场研究公司IDC声称,去年,大数据和业务分析应用软件、工具和服务的销售额达到了近1220亿美元,到2019年会猛增50%以上,达到1870亿美元。
所以,难怪新的大数据产品源源不断地涌向市场,既有来自老牌企业的,也有来自初创公司的。
下面这10种大数据产品在2016年上半年引起了我们的注意。其中一些(但不是所有产品)是在3月份的Strata + Hadoop World大会或6月份的Hadoop峰会上亮相的。
AtScale Intelligence Platform 4.0
AtScale开发的软件让业务用户有办法使用已有,并且熟悉的应用软件和业务分析工具,包括微软Excel、Tableau和QlikView,访问Hadoop集群中的数据。
AtScale Intelligence Platform 4.0于3月份发布,它提供了公司所说的“混合查询服务”,这项技术可以通过任何商业智能工具,使用MDX或SQL――这是查询数据库系统中数据的两大语法,直接查询Hadoop。
4.0版本还借助“真正的授权”技术,解决安全和数据治理问题。该技术确保在Hadoop上执行的查询符合数据治理和数据访问审计等策略。
BlueData EPIC For Cloud Deployments
由于复杂性和成本,大数据产品常常停留于试点阶段。BlueData Software的EPIC平台旨在让用户更容易部署用于开发和生产环境的Hadoop和Spark基础设施及应用软件。
就在不久前,企业版的BlueData EPIC只适用于本地部署。而在6月份,该公司发布了面向云部署的BlueData EPIC,该公司称之为“大数据即服务”。
BlueData Epic企业版现处于该公司所说的“针对性可用”阶段――数量有限的早期采用客户,仅限于亚马逊网络服务(AWS)平台。今后几个月将会推出适用于AWS以及微软Azure、谷歌云平台及其他公共云服务的公众版。
Confluent Platform 3.0
处理实时流数据是大数据领域的最大挑战之一。为处理这个问题而出现的一项关键技术就是Apache Kafka,这种开源消息代理项目为处理实时数据提供了高吞吐量、低延迟的软件。
Confluent于2014年9月份成立,由Kafka的早期开发人员创办,他们旨在利用开源软件,帮助公司获得流数据的价值。Confluent Platform基于Kafka而建,这种实时数据系统充当容错、高扩展性的消息传递系统。它可以从众多来源收集数据,比如用户活动日志、设备仪器、股票行情自动收录器系统及其他使用场合。
5月份,这家初创公司发布了Confluent Platform 3.0,这个主要版本引入了Kafka Streams,这是用于构建分布式流处理应用程序的Java库。3.0版本还包括用于管理Kafka环境的Confluent Control Center,这是该公司的首款商用产品。
Datameer 6.0和Datameer Cloud
Datameer开发的一种大数据分析平台为用户提供了数据整合、准备、分析和可视化等方面的自助式功能。
Datameer 6.0于5月份发布,它提供了一种新的用户界面和下一代分析工作流程,该公司称,这让数据整合、准备、分析和可视化等步骤成为单一的、流畅的交互式过程,同时改进了数据发现。
该公司还推出了Datameer Cloud,这种基于云的数据准备和分析服务在微软的Azure HDInsight上运行,由Datameer全面管理。
DataStax Enterprise 5.0、OpsCenter 6.0和Enterprise Graph
DataStax是NoSQL数据库领域的领导厂商,它为云计算和数据密集型应用提供了基于Apache Cassandra数据库的软件。
该公司在2016年很忙碌。6月份发布的DataStax Enterprise(DSE)5.0包含物联网和零售等应用尤其需要的高级复制功能。它还包含更新版的Apache Spark,面向高级搜索和分析领域。
4月份发布的DSE Graph作为DSE的一个选项来提供,它是一种可扩展的实时图形数据库,用于需要由许多应用软件来管理复杂数据集的应用环境。
同样在6月份,该公司发布了DataStax OpsCenter 6.0,这款面向DSE的可视化监控和管理系统提供了数据库监控、调优、配置、备份和安全等功能。
DGSecure 6.0
Dataguise开发的以数据为中心的安全系统用来识别并保护企业最敏感的结构化和非结构化数据,无论数据驻留在何处,从传统关系数据库到Hadoop等大数据存储系统,不一而足。
DGSecure 6.0于6月份发布,它包含面向数据治理、隐私合规和风险缓解等任务的新功能,包括制定数据安全治理策略。软件包含一个新的仪表板,可用于可视化显示数据泄密风险、确保遵从隐私政策。
Information Builders的WebFocus Business User Edition
Information Builders的WebFocus历来是该公司的旗舰商业智能产品。但是企业版软件历来面向为经理和工人提供商业智能报表的IT部门和开发人员。
如今业务分析领域的口号是“自助式”,为用户提供用来自行发现、准备和分析数据的大数据工具。6月份,IBI宣布推出WebFocus Business User Edition(BUE),该产品让不懂技术的用户无需IT或商业智能开发人员的帮助,就可以轻松生成和共享报表、仪表板及数据可视化工具。
WebFocus BUE软件包括:面向不懂技术的用户的InfoAssist+自助式分析创作工具,用于管理内容和组装分析页面的BUE Portal,以及面向高速数据发现的列式存储工具。
基于浏览器的软件是为包括100个用户的群组设计的,它在今年年初推出了限量版。
Koverse 2.0
初创公司Koverse提供一种“一体化数据湖”平台,因而可以大大加快收集大数据,并引入到生产环境的速度,而成本低于当前的技术和方法。
总部位于西雅图的这家公司创办于2012年,该技术的早期版本已在两年多前亮相。Koverse平台2.0于6月21日发布,它整合了Apache Accumulo“分布式键/值存储”技术和该公司的通用索引引擎(Universal Indexing Engine)。
Koverse保证,它可以在一个月内将一家公司的大数据引入到生产环境――这比过去构建数据仓库所花的时间要短得多。
SAS Viya
Viya是一种新的分析和可视化平台,可以在私有云或公共云环境中运行。SAS在4月份发布了下一代软件,这是它首次真正涉足云计算,并为SAS未来的业务分析软件提供了基础。
不仅可使用SAS自己的编程语言来访问该平台,还可以使用包括Python、Luya和Java在内的其他语言来访问,使用支持性的公共REST API也可以访问。
该软件目前针对早期采用者,会在这个季度面向大众发布。SAS计划今年针对Viya平台发布的应用软件包括: SAS Visual Analytics、SAS Visual Statistics、SAS Visual Investigator、 SAS Visual Data Mining以及Machine Learning。
Splice Machine RDBMS走上开源道路
Splice Machine提供的数据库系统结合了传统关系数据库技术的一些方面、下一代NoSQL数据库的可扩展性以及内存系统的高性能。该数据库整合了HBase、Hadoop和Spark等技术,可以执行事务处理和业务分析等任务。
6月份,Splice Machine迈出了大胆的一步:让其数据库成为一种开源技术。联合创始人兼首席执行官蒙特·兹韦本(Monte Zweben)表示,走开源道路的目的是,吸引更多的开发人员关注Splice Machine平台,进而为该数据库构建更多的下一代应用程序。
除了企业版外,Splice Machine还将提供软件的开源社区版,到时拥有更多的功能特性,收取许可费。