开源项目GraphLab的公司化,标志着图谱数据库和图谱处理应用的商业化进程已经启动。
GraphLab是一个流行的图谱分析和机器学习的开源项目,最近该项目剥离出一个独立运作的商业公司GraphLab Inc,其创始人,华盛顿大学机器学习专业教授Carlos Guestrin将负责公司的运作,目前GraphLab已经从Madrona Venture Group和NEA募集了675万美元资金。
图谱分析是大数据集分析的热门领域,主要被用来分析数据节点之间的关系和相似度。“图谱”一词源自社交网络的人际网络关系图谱分析,但是今天图谱分析的应用范围要广得多。
根据Guestrin介绍,GraphLab的算法被应用于很多推荐系统,也包括银行的欺诈侦测和电脑网络中的入侵侦测等领域。实际上,图谱分析模型可以适用于从内容推荐到基因分析等各个领域。尤其是与机器学习结合后,图谱分析几乎可以分析任何有足够多数据的分析场景。
众所周知,Google使用了著名的图谱处理系统Pregel作为PageRank算法的一部分。虽然过去几年中冒出来不少图谱数据库等图谱分析项目,但Guestrin表示GraphLab与Pregel的资历相当。早在五年前,Guestrin就和卡内基梅隆大学的同事开发了一个小型开源系统,当时没有想到会火。如今,大名鼎鼎的音乐推荐网站Pandora和零售巨头沃尔玛的大数据实验室WalmartLabs都在使用GraphLab。
在GraphLab之外,还有一些图谱数据库,例如Giraph(Facebook开发的开源软件,基于Hadoop的Pregel克隆)和Neo4j(该项目也有一个商业化公司Neo Technology),以及Twitter的Cassovary和华盛顿大学的Grappa项目。Guestrin表示GraphLab能与上述大多数图谱数据库配合使用,发挥GraphLab的大规模机器学习处理能力。
据Guestrin介绍,GraphLab的商业化产品还需要假以时日,他目前的重点工作是七月份即将发布的GraphLab的下一个开源版本。但是未来几个月GraphLab将开始与商业客户接触,了解他们对图谱分析商业软件的需求。
对于图谱分析创业公司而言,目前最大的一个疑问是潜在市场规模到底有多大。目前市场中已经有不少图谱分析产品,其中不乏IT巨头开发的成熟产品,例如超计算机厂商Cray开发的YarcData。
原文链接:http://www.ctocio.com/ccnews/12340.html