总部位于旧金山的初创公司 HStreaming,近期接受了它的第一笔创业投资——来自阿特拉斯风险投资公司的100万美元,这笔资金将用于打造一个实时的Hadoop系统。这家仅仅有三个人的公司却已经运营了两年左右。
如果问及任何Hadoop的有关人士, Hadoop如何超越目前的批量处理平台,那么“实时”无疑是其中最主要的一个答案。事实上,这也是下个月“ Structure: Data”的一个讨论主题,企业希望Hadoop成为一个 可操作的数据库以及具有 各种类型的OLAP引擎。
目前,HStreaming公司尝试为他们的Hadoop环境添加一个实时的组件,当数据提交到系统,在存储到磁盘之前就会进行数据的处理,就像开源的技术 Storm和 Kafka。当然这不是一项简单的工作,Uhlig认为现在的开源版本只是处在初级阶段(就像Storm,能够完美的对触及到的数据块进行分类),但是在分析能力上还有不足。
另一个方面,HStreaming,已经建立了一个完整的系统,该系统能够利用实时的引擎来处理视频、服务器、传感器以及其他机器上生成的数据流。而且它也完全兼容Hadoop作为一个归档和批量处理系统。Uhlig也表示,它同时添加了很多现有的BI工具用于数据的分析。
更奇妙的是,对于Hadoop的用户来说,不需要进行任何的改变。HStreaming能够通过利用相同的MapReduce算法和用户已经编写好的Pig 脚本进行流处理。在实际的操作过程中,Uhlig表示,用户几天之内就可以从一个仅仅只能进行批处理的系统转移到该实时系统。
她表示,截至目前为止,公司目前的收益主要来源于政府(尤其是视频分析,HStreaming可以实时处理数以千计的摄像头图像),电信运营商以及广告。公司计划未来把目标放在公共基础设备和金融服务领域。
HStreaming看起来绝对具备这些技术实力。Uhlig是公司的CEO,而公司的CTO是Volkmar Uhlig(她老公),首席软件架构师是Jan Stoess,他们两人都拥有计算机科学博士学位。Volkmar还是L4微内核的首席架构师,他已经建立了一个高频的交易系统,曾经在IBM的TJ Watson研究中心工作了五年,期间正是研究流处理技术。