“宇宙,人类最后的边疆。这是星舰企业号的航程。它继续的任务是去探索未知的新世界,找寻新的生命和新的文明,勇敢地航向前人所未至的领域。”这是《星际迷航》里的经典台词。第一次走进星环科技的办公室,就仿佛置身于科幻世界的太空飞船,到处弥漫着创新的冲动。
《三体》中的星环集团聚集了最优秀的一批科学家
光阴好像流水飞快,不知不觉间我们已然涌入大数据的时代:凡事都在拿数据说话,就连我们平时吃饭用的筷子,也赶上了大数据的班车,可以神奇地鉴定出地沟油,更不用说可视眼镜,智能手环什么的了。
《三体》中的星环集团聚集了人类最优秀的一批科学家,建造成太阳系的第一艘超光速飞船——星环号,星环科技的创始人兼CTO孙元浩表示,星环科技故借此命名,希望汇聚最优秀的研发团队,立志打造成国内外领先的大数据基础技术厂商。
在孙元浩眼里,创新一词更多地与创业公司联系在一起,他认为每一次技术的演变都是源起于小公司为解决现实问题而进行的新技术开拓。他认为创业者们应该满怀信心地投身到改变世界的事业当中,一旦有了idea以后,就需要努力尝试把这些idea变成现实,这就是创新的要义所在,无论成功与否。
一直以来,从人们所艳羡的公司辞职,回归于起步阶段的初创企业,这样的职业生涯转变不仅需要极大的勇气,更需要对行业未来趋势有十足的把握。当下,大数据创业需要的不是拉拉队,而是实干家。孙元浩,正是一位有梦想,有魄力的年轻实干家。通过和他近两个小时的交流,可以看出他是一位逻辑思维能力超强的技术大咖,他阳光,有激情,并且在他身上透着敏锐的市场洞察力,顽强的拼搏与不服输的霸气。
是否做了自己热爱的事情?是否为实现自己的梦想尽了最大的努力?这是创业者执着的来源。
一直以来都坚信终将有一款自己的产品,可以完全超越美国人
孙元浩,作为英特尔自研商用版Hadoop解决方案曾经的团队领导者,一直以来都坚信终将有一款中国自己的产品,可以完全超越美国人。这并不是一种盲目的自信。虽然截至目前,国内大部分企业的核心数据库系统还大都是来自国外公司的产品。但鉴于中国企业的应用场景非常复杂,很少有国外产品能够不经修改就可以顺畅运行。而且在中国,由于用户数量庞大,中国企业的数据量普遍要高于国外企业一个数量级。国外公司在进行产品设计时,是根据国外仿真的用户数来构架的,遇到中国的用户数量,系统出现问题的几率就会大大增加。中国的电信运营商、银行、交通等领域,数据量和复杂程度要远超国外同类企业,急需新一代数据处理技术来解围,而目前国外公司的产品还不能很好地满足国内用户的需求。
就技术而言,孙元浩和他的团队完全可以和国外公司站在同一个起跑线上:同步开发产品,同时开展竞争。他相信团队有信心和能力做出优秀的产品,为中国客户提供更好的服务。
在中国这么一个巨大的市场,尤其是有如此多的问题需要解决,因此完全有必要有一家本土公司,能够承担起这样的历史使命,能推动这个技术的变革,开发顶尖的技术。孙元浩希望星环能够成为这样一家伟大的公司,作为大数据的领先者,推动这个产业的转型,解决中国市场的一些特殊问题。同时也希望星环能够去开拓全球市场。因为在中国市场发展技术,会面对在其他市场所无法想象的挑战,欧洲国家的基础数据量及其复杂程度远低于中国,即使美国的数据量也比中国小一个数量级。能够在中国的大数据领域取得成功的公司,从技术角度来看,其产品在世界范围被广泛应用也是理所当然的。
孙元浩一直坚信中国一定会诞生这样一家公司,去接受这样的历史使命。
2013年,星环科技创立,致力于Hadoop之上的高效计算引擎和数据分析算法的研发。作为公司创始人兼任CTO,而不是CEO。CTO孙元浩,是星环号的领航员。
Transwarp取自《星际迷航》中超光速飞船的曲率引擎
天下武功,唯快不破。武侠世界的金科玉律,同样适用于当前日趋激烈的商业竞争,不败的秘诀,就在于洞悉并快速响应市场需求的变化。随着现在传感器网络、物联网的发展,数据产生的速度越来越快,当然在互联网里面早就有实时数据产生,使得实时大数据的技术慢慢开始得到更多的关注。
然而传统处理方法是将电子仪器产生的数据存入数据库后再统一分析,一旦设备增多和数据增长,延时就越来越高。利用流处理技术在数据产生的时候就进行实时处理可以极大地提高企业的反应速度和工作效率。
而Hadoop、Spark等架构就能够满足这样的需求。它们提供节点通信,实现计算任务的分配,以及容错扩展等等问题,最终实现对分布式系统中各个节点计算能力的聚合。尤其是Hadoop,在节点间传递计算过程,而不是传递数据,能够用更少的带宽更快地推进大数据的处理。孙元浩表示,自去年星环科技就部署了较多的流处理集群,来处理从用户产生的实时数据到传感器产生的数据。其公司产品Transwarp Data Hub(TDH)正是基于Hadoop和Spark的分布式内存分析引擎和实时在线大规模计算分析平台,相比开源Hadoop版本有10x~100x倍性能提升,可处理GB到PB级别的数据。而其中的Transwarp正是取自《星际迷航》中超光速飞船的曲率引擎,就是努力将Spark打造成为Hadoop系统的下一代引擎。
据孙元浩介绍,星环与其合作伙伴为某省公安厅交通管理部门部署了全省范围的交通监控系统,采用分布式队列实时采集全省各个交通卡口的车辆信息,使用流式计算集群对过车记录进行实时统计和监测,并实现上述多种实时分析应用,系统处理信息的端到端延时在2秒以内,较好地提高了交通管理的效率。截止到目前,星环科技已经部署了6个省,本月还会再部署两个省。
星环在以Hadoop/Spark为代表的大数据底层技术领域功底扎实,在国内已然拥有最多的企业级Hadoop实施案例,触角已延伸到交通安全、金融、电信、医疗、能源等各行各业,中国正需要这样一个能在大数据Hadoop领域不输国外公司,甚至超越他们的基础平台级的技术公司,星环科技有望填补这一空白。
大数据和云计算终将走向融合,星环科技的目标是要做中国的“甲骨文”
纵观国外,已然涌现了一大批以大数据为依托的创业公司,加上IT界众多老牌公司的加入,大家都想在大数据这一广阔市场中分得一杯羹。而国内的情况是,大数据领域内的公司虽然很多,但大部分是以大数据应用为主,敢于挑战大数据Hadoop平台技术的公司少之又少。星环是这少之又少中的一个佼佼者,孙元浩坦言,星环信息科技的目标就是要做中国的“甲骨文”!
提到大数据,就必须要讲到安全。国内金融机构对外资的高依赖度将直接导致金融数据被国外厂商掌控,威胁我国金融安全。此前,棱镜门等事件暴露的国家信息安全问题,使得国内“去IOE”掀起高潮,必须努力摆脱外资数据、技术公司的束缚,当然包括金融界在内的多个传统行业对于IT的国产化需求也在不断加大。在金融业,已经有许多的银行IT部门正在尝试使用国产的基础软件或是开源的框架、产品,特别是数据库领域,这种趋势更加明显。
孙元浩认为,大数据技术在银行的应用前景被广泛传播,通过综合处理银行自有结构化交易数据以及外部互联网/政府数据,可以提升精细化客户管理水平以及进行大数据征信降低风险等。据他介绍,曾有股份制银行把一些复杂的贷款风险控制逻辑在多个MPP数据库和Hadoop发行版上进行过尝试,传统数据库对于庞大的数据量及其运算表现得力不从心。可见,当数据量与日俱增,而传统的MPP数据库形态却未改变,企业面临的将是已过时的技术缓慢地处理日新月异的数据,这在追求高效的大数据时代显得岌岌可危,银行需要一个更高效的数据处理工具。
在全球去IOE的大背景下,Hadoop技术已成为公认的替代传统数据库的大数据产品。其开源Hadoop平台亲民的价格设置是其最具吸引力的特质所在,而它容纳全部数据类型的能力则是另一大亮点。Hadoop的诞生是划时代的数据变革,但关系数据库时代的存留也为Hadoop真正占领数据库领域埋下了许多的障碍,因为业务人员对SQL语言及工具更加熟悉。对SQL(尤其是PL/SQL)的支持一直是Hadoop大数据平台在接手旧数据时代时亟待解决的问题。Hadoop对SQL数据库的支持度一直是企业用户最关心的诉求点之一,也是他们选择的Hadoop平台的重要标准。
7月22日,由星环科技牵头成立了国内首个Hadoop技术及应用推广联盟,希望打造一个完整的Hadoop技术与产业链,加速国内Hadoop大数据技术的市场推广。在第二天的中国Hadoop技术峰会上,孙元浩详细介绍了如何在Hadoop上实现分布式事务处理,以保障分布式数据的一致性。他从十五年前EricBrewer的一篇演讲入手,提出了Hadoop技术发展中分布式事务处理一致性的困难。他从CAP定理开始,提出了实现一致性的矛盾所在,尤其是保障一致性与可用性的困难。但是随后孙元浩进行了ACID详解,理论上阐述了实现分布式一致性的可行性以及星环科技对分布式事务处理一致性的两种解决方案。并同时通过演示展现了星环科技Transwarp Inceptor对当前分布式事务处理一致性问题解决的处理方案及其优越性。
他认为,Hadoop的兴起并不是一个产品代替另一个产品,而是在硬件发展到一定阶段一种计算模式代替另一种计算模式。当前,TDH已从数据仓库的补充转变成了其替代品,已经大大提升了数据分析的效率,当然受益于其对SQL的完整支持以及对ACID数据一致性的支持,某股份制银行开始把一些复杂的贷款风险控制逻辑迁移到TDH Hadoop平台上进行运算。可见,Hadoop全面主导数据库的时代开始了,这也是大数据时代真正来临的标志性突破。
自过去的一年,知名的云计算公司以及软件、操作系统、系统集成厂商、配置管理软件、大数据厂商以及开源软件都在向Docker靠拢。微软也称将在下一个版本的Windows Server中支持Docker。孙元浩认为,大数据和云计算终将走向融合。那星环又做了哪些准备来应对如此快速变化的市场呢?其正在为大数据应用量身定做TOS云操作系统。在过去,Hadoop on Docker大数据平台的部署,只在单机情况下实现过,而且过程繁琐,耗时很长。虽然类似Pivotal方案也实现过一键部署,但是单机的小规模部署对于Hadoop这样的大数据平台并不具有实际意义。TOS基于Docker和Kubernetes,支持一键部署TDH,让TDH和其他Docker应用共享集群,过去,几百台规模集群的Hadoop on Docker的部署,从未有人实现过,这也是Hadoop on Docker难以落地应用的主要原因之一。而一键规模化部署则更是绕过了Hadoop on Docker在市场的适应期,降低了安装和使用的成本,使企业用户可以更早更快地使用该技术,是在Hadoop技术发展和推广中举足轻重的一个技术突破。其基于优先级的抢占式资源调度和细粒度资源分配,让大数据应用可以轻松的拥抱云服务。
产品创新就是功能定义+技术实现,需要有远大格局的具体实践者
远=近=永恒。当前,“互联网+”给各个产业的创新发展带来无限可能,但无论如何“+”,不变的还是产品本身的质量、品牌、以及满足用户需求这些核心点。
孙元浩坦言,不管科技如何变化,模式如何变化,对于做产品而言,以功能定义+技术实现的本质是不变的。弄懂了市场想要什么,就几乎可以有针对性地提供创新产品和服务。
大数据带来的挑战也是跨行业、跨领域的。数据挖掘需要的是复合型人才。目前星环业务正在快速扩展,已在北京等地设立分公司和办事处。最后,孙元浩呼吁有激情的大数据人才,怀揣着共同的梦想,能齐聚一堂,不做大数据的拉拉队,立志都成为大数据的实干家!
访后记
无论什么领域,引领穿越星际迷航,都是一次世界观的改变。