互联网+的热度在持续发酵,不仅与通信、金融以及商业结合创造出惊喜,也给其他行业带来了深度改变。运维就是这样,互联网运维蓬勃成长,与云计算碰撞出火花。在由51CTO举办的WOT2015互联网运维与开发者大会上,UnitedStack公司创始人兼CEO程辉解读了《OpenStack与互联网运维》,解释互联网+时代应该如何运维。
运维新关键:互联网+和云计算
“互联网+概念炙手可热,这个时代运维有两个特点需要突出。” 51CTO传媒总裁创始人熊平表示。“其一是过去的运维是单独去构建一个体系,单纯的运维,现在运维更多的与开发向结合,DevOps趋势滚滚而来。其二是这个时代,运维更多的不仅仅是内部系统的技术和架构,更多的是在云上的服务,需要格外关注PaaS和IaaS。”
OpenStack正在替代传统IT
任何计算机的问题都可以通过引入一个中间层来解决。 程辉表示,现在大量的IT基础设施有关的业务基本上都运行在物理环境下,而不是运行再一个云计算中间件上,或者是云计算的系统上。“云平台都是为了解决这样一个中间层的问题。”为什么需要加入中间层?“为了实现把不同品牌的异构的计算、存储和网络资源全部整合起来,变成一个通用的,面向业务的一个接口,然后通过中间层来解决弹性扩展和接口运维的问题。”OpenStack则提供了一种通用的方案,向上层提供抽象接口,同时屏蔽掉下层不同硬件之间的差异。OpenStack的出现,真正实现了在用户业务和硬件之间插入中间层,使用户不需要再关心硬件,而是只需要关注业务,计算、存储和网络都成为了可消费的资源。
为什么那么多互联网公司纷纷把基础设施平台,尤其是以IaaS和PaaS为基础的平台转向了OpenStack呢?“因为OpenStack里面可以解决他们以前的问题,而且还有更好的开发落在这个项目。考虑非常周全,同时具有非常大的成本优势。”程辉举例说,“OpenStack有一个项目做统一认证与管理平台,叫做Keystone。包括了从域、用户名、项目、决策等等的很多概念。这在之后的研究当中才发现设计的这样复杂是有原因的,可以覆盖绝大多数的情况。一般很多的互联网的基础设施上需要不断的重构之前做的,然后再重新做,OpenStack却从最初就提供了非常好的思路,这是极大的减少的研发成本和研发风险。另一个例子是,通过OpenStack搭建测试环境,所有人都在一个环境当中做开发和测试,可以把高昂的服务器成本降低。”
OpenStack商用 从食材到大餐
“OpenStack给云计算带来了全新的选择,但是并不意味着OpenStack可以马上用到用户的系统当中。可以这样理解,OpenStack提供了丰富的食材,但是完成大餐还需要大厨。”程辉说,比如说***个面临着整合的问题,和现有的服务如何整合。故障排查也是很难的事情,因为OpenStack有20多万个代码,还有底层的存储,60多万个代码,还有其他的内容,总共加起来一百多万代码,这么庞大的系统出现问题,尤其是有几百台的时候,去做灾后处理是最难的。此外,SLA保障,还有持续集成与交付,这都非常重要。
如果想自己建设一个厨师团队,构建一个基于一百当万个代码,几十个项目的,面对各种各样的食材的时候,如何把它变成一个能够对外24小时的商用的云服务,需要做哪些事情?程辉算了这样一笔账。人员需要覆盖从虚拟化,存储网络,研发到监控、安全、产品经理,至少一千万的成本,持续投入一到两年才能把整个系统整合起来。但是如果选择已经成熟的OpenStack提供商就可以很好的规避这些问题。
“目前我们的UnitedStack云平台,经过了大概两三年时间的摸索和尝试、打磨和优化,最终我们发现OpenStack设计***调的是Open的属性,还有Stack是从上到下每一层都有非常多的选择。我们在每一部分都选择了一种技术,这样能够达到的性能或者是达到的体验,能够超越任何的商业产品所能达到的体验。”程辉说,“当然,硬件设备是没有任何锁定的,任何厂商的都可以。”
优化设计 激发系统性能
“正是通过对开源系统的多次架构和源码分析、整合和二次开发、运维准备以及持续的迭代和运营,使得我们能够把开源项目在互联网的更好的落地。”程辉说,“这不只是使用的过程,还是一个优化的过程。”
统一存储就是一个典型的优化过程。之前OpenStack各个项目都要用到存储,而且每一个项目都有自己存储的去支持,性价比非常低。UnitedStack***的做法是,把OpenStack里面各大存储底层都换成了Ceph,将Ceph统一作为Nova/Glance/Cinder的存储后端,实现了统一存储。这样就构建了一个大的存储资源池,这样基于COW的卷创建和快照操作,实现虚机的秒级创建,全SSD的Ceph存储,能够达到1毫秒延迟的急速性能。
“但是,这并不是说使用Ceph就可以把所有存储的问题都解决了。我们实际遇到的数据是两三万的IOPS只能做到五千,当时我们碰到这个问题的时候非常难受。我们在前面已经做好了源码分析和整合工作,做好了运维和准备,准备上线的时候,却发现极大的性能隐患。”程辉表示,在此之后,UnitedStack通过半年的时间优化整个Ceph的路径,实现了从20毫秒降低到1毫秒的随机I/O平均延迟。“并且这是要同步到三个机柜上的三台服务器上,这已经接近了商业的存储性能。事实上,我们实现了采用开源的分布式存储而达到商业存储阵列的水平。”
目前,UnitedStack已经成功打造了自己的两个公有云,并且帮助很多企业部署和运维了自己的开源云平台,覆盖互联网、金融、IDC等多个行业。
互联网+时代如何运维?用OpenStack打造高效的运维是大势所趋,程辉总结道:“UnitedStack不卖硬件,不卖软件,而是为用户交付更稀缺、更有商业价值云计算平台技术和运维服务。”