从大型机到小型机时代,再到今天的云时代,作为中国铁路信息技术中心技术支持部部长的高明星,其职业生涯完整地见证了不同阶段的IT技术变革。能够一直站在技术发展最前沿的人应该是幸福的,我想这也是高明星今天仍能饱含激情工作的动力。
中国铁路信息技术中心技术支持部部长 高明星
需求和趋势的***交汇点
铁路业务高速发展这是有目共睹的,去年我国的铁路运营里程超过12万公里,排世界第二,其中高铁运营1.9万公里,排世界***。在铁路业务高速发展的同时,铁路的IT架构如果只是采用小型机+集中存储、刀片和虚拟化加集中存储这种传统的架构,再叠加传统烟囱式、孤岛式的信息系统建设模式,铁路信息化仍将会延续建设周期长、维护成本高、利用率低等问题的恶性循环。
已经完成了政转企的中国铁路总公司,目标就是要向世界***的现代物流企业转型。同时,以12306、95306为代表的客货运服务以及经营开发等新型业务需要的是互联网架构的支持。需要IT基础架构有弹性可伸缩、可扩展、IT系统部署和响应快、存储扩容快还有保证IO性能等等不同特性,这些需求传统IT架构很难满足。
云计算[注],这是必须要选择的道路。在多方调研后,OpenStack作为铁路行业内被认可的新一代数据中心IT基础架构被正式采用。
“对于开源的技术,我们其实在2008已经开始尝试,并且有了一些积累。OpenStack经过了四五年的快速发展开始走向成熟,开源技术发展的趋势已经比较明朗了。从最初对云、开放系统存在怀疑,到慢慢认为可用,到现在我们已经开始用,这是一个逐渐转变的过程。使用开源架构一是我们自身转型的需要,也是IT发展的趋势,我们正好走到了一个正确的交汇点。”高明星在记者的采访中如此谈到。
中国铁路总公司从2014年开始做新一代铁路信息化总体规划,经过三年的时间,已经制定了详细的信息化规划来支撑总公司的转型发展。要建设世界***的现代物流企业,这里面有太多的工作要做。
“随着新版信息化总体规划的发布实施,这么多的需求,IT系统如何能跟得上?一方面是客运,另一方面是货运,还有经营开发、建设管理、战略决策等。仅客运去年一年的运输量高达27亿,货运去年26亿吨,平均每天700多万吨,预计今年客运会有10%的增长,这都需要强大的计算能力和高效的技术支撑。过去的运输主要是站到站,现在用户的需求是门到门,我们现在缺的是两端的服务,所以物流平台要把两端的用户需求整合起来,给用户提供更便捷的服务。”高明星清晰地解读各业务具体需求。
联合开发绕开那些“坑”
总公司的要求可以说是明确的,那么作为研发实施方,北京中铁信科技有限公司(以下简称北京中铁信)需要考虑如何设计与之匹配的信息系统。
该公司技术总监李广谦谈到:“我们不仅要完成铁路主业方面对信息系统的要求,更重要的是让铁路主业在转型的过程中,信息化能起到积极主动的作用,这是系统规划的前提条件。因此,我们需要明确地分析问题的痛点在哪儿并去解决它。”
北京中铁信科技有限公司技术总监 李广谦
从2014年开始,北京中铁信承接了信息中心的“铁信云”项目,确定了从传统架构向云计算架构转变的方向。
李广谦作为北京中铁信的技术总监,这些年来一直保持着对云计算技术的关注和研究,这其中就包括OpenStack。“我们走得非常小心,做OpenStack的公司不乏诸如IBM、红帽等这样的国际大公司,也出现了众多本土创业型公司,但我们并不清楚他们之间产品的差异。所以我们花了大量的时间约谈这些公司,经过一圈调研之后,我们也发现每家的技术侧重点是不同的,它与我们的需求有一个***的矛盾点,就是这些公司更追求技术的创新点或者技术的前沿性,我们需要的是系统的绝对稳定性和易用性,我们希望能把复杂的技术做到最简单。”
另外,在功能需求上,北京中铁信发现并没有一家公司的产品能够满足其全部的需求,如果要满足需求,涉及到二次开发的工作量也相当大。
第三,因为OpenStack基于开源的架构,每家公司在OpenStack代码开发方面的水平并没有比北京中铁信领先太多,而且在李广谦看来,这个差距北京中铁信是可以追得上的。但是李广谦发现,如果完全自研,同样会存在一些问题,比如对北京中铁信而言,在OpenStack某些技术方面相对薄弱。此时的李广谦想到了联合开发模式,那就是借助市场上的先进力量,再结合自身对铁路系统的了解,汇集双方的优势一起做技术研发。这样做的好处是既保证了是自主研发,双方共享研发结果和知识产权,又能扬长避短。最终北京中铁信选择了北京云途腾科技有限责任公司来共同完成铁信云的开发和实施。
三大难题迎刃而解
铁信云,就是中国铁路信息技术中心、北京中铁信、北京云途腾、英特尔公司秉着开源合作的精神将开源云平台的思考与落地有机融合。它以原生的OpenStack作为基石,结合OpenStack组件之上再以“稳定性、可靠性、易用性、安全性”四个标准进行相关组件开发和加固,同时联结合作伙伴形成完善的铁路集成解决方案。
那么,这个联合开发方案是否能满足用户的需求,着手点在哪里?北京云途腾科技有限责任公司COO吴凯在采访中也总结了铁信云重点解决的原生OpenStack的三大问题。
北京云途腾科技有限责任公司COO吴凯
首先在可靠性方面,大家都知道,开放架构有它的优势和劣势,劣势恰恰是在稳定和可靠性方面,尤其对于中国铁路信息技术中心来说,它真正要用开放架构去支撑生产的系统。为此双方的技术团队主要去攻克的难关在于,怎么把OpenStack开源“大帐篷”架构下的模块的不稳定性,以及松耦合性做结实。
云途腾与中铁信花了大量的时间,实现了系统稳定、可靠性的大幅提升。铁信云在规划之初就同步规划了云平台的运维监控系统(OMS),云途腾在里面贡献了MagicStack模块。北京中铁信研发团队将大数据[注]的底层架构引入到OMS,通过监控、日志分析对IT系统进行数据采集,结合大数据技术进行预测分析、告警,结合MagicStack做自动化的联动,这是一整套系统。目前双方也在考虑将这套系统贡献给OpenStack社区。
第二是解决OpenStack大规模实施的问题。中国铁路信息技术中心***期实施的项目,大概有600台计算节点的物理服务器,117台节点的存储服务,再加控制等其它节点,将近800台。CPU 15740核,内存216 T(+微信关注网络世界),SAS 1.6P,SATA 2.9P,SSD 192T,网卡将近2000个万兆网卡,并且还要考虑到后期工程中更大规模的物理机加入进来。在这个规模之下,要解决开放系统上的技术难题,在这方面云途腾向国内甚至国际上OpenStack部署实施方法方面也做了很多研究、学习和贡献。
联合研发团队用了近2个月时间做了一个非常完整的测试,甚至开到了10万台虚机的规模,在上面运行了各种OLTP、OLAP等应用,同时还做了计算环境下消息队列处理能力的性能测试、计算节点的高可用性测试等,在存储环境下做了Ceph集群的IOPS、吞吐处理能力的极限测试和稳定性测试等。能够在这800台物理机上测试成功,也让合作三方对这个平台的稳定可靠性都有了信心。而联合研发团队在大规模验证过程中,也积累了大量的宝贵经验
第三个问题是解决了与老旧和传统系统的对接问题。将过去老旧和传统的系统资源做对接,也是为了以后各种系统能够统一纳管。这些传统系统对接包括VMware的支持与纳管,传统集中式存储的支持与纳管,以及Power小型机的支持和纳管等。
开源需要最前沿的技术支持
在OpenStack开源的云计算架构上,大多使用的是KVM的虚拟化技术,而KVM对CPU芯片指令集的这些特性应用较多,而英特尔在这方面的技术领先性是毋庸置疑的,英特尔也一直是推动OpenStack发展的中坚力量。
在中国铁路信息技术中心上云的过程中,除了在CPU指令集方面的技术支持,英特尔也在不断把他们的***的前沿技术应用到铁信云的规划上,比如提高网卡性能、存储优化、软件研发的方向等方面。
“以点带面,是英特尔一贯的商业模式。从中国铁路信息技术中心应用的铁信云来看,它会辐射到全国的铁路行业,这也是英特尔在行业内扶持OpenStack的一个模式。”英特尔中国云计算战略总监陈绪博士谈到。
我们知道如今英特尔在很多领域都有新的突破,比如软件定义存储[注]、软件定义网络[注](NFV[注])等。现在以Ceph为代表的存储架构已经获得了OpenStack整个社区的认可,更是获得了国内诸多央企的实际使用。底层技术的研发,特别是硬件的适配和对未来架构的支持,这也是英特尔团队研发的重点。
英特尔在开放系统中投入了众多前沿技术和资源,这些研究成果也越来越多的被诸如云途腾这样的OpenStack创业公司或前沿型的技术公司所采用。
比如在铁信云运维管理方面,有一个很重要的IPMI监控功能。三年前云途腾就与英特尔合作,利用IPMI使提升运维的效能和性能,如今这个监控功能就在铁信云的实践中采用。
同样,应用在铁信云上的英特尔的最前沿的技术还包括DPDK,这是英特尔提供的软件包,在软件定义网络(SDN[注])里面用的比较多;除此之外还比如SPDK,在软件定义存储方面能够极大提升吞吐能力。
正如文中李广谦所说,开源架构有利就有弊,而像北京中铁信和云途腾这样的本土企业的空间,就在于趋利去“弊”,和提供更适应本土的软环境。
无论是从技术层面、市场容量还是客户认知方面,OpenStack无疑在中国企业级市场迎来了它的黄金时代。