云计算平台重要的构建模块:企业级作业调度

云计算
云计算从某种角度来讲就像我们要实现的共产主义社会,我们不是为了共产主义而共产主义,实现共产主义的目的是为了更好的生活。同样,我们之所以建云计算,其目的是为了更好的服务于我们的业务,这是讲云计算是我们必须要掌握的一个基本前提。

2011年11月30日,由BMC软件举办的云计算管理技术大会在上海举行,会上各路专家将就云计算愿景、云计算应用、云计算管理、业务服务管理(BSM)等话题展开精彩探讨。以下是BMC中国高级软件顾问李二超先生的精彩演讲:

云计算从某种角度来讲就像我们要实现的共产主义社会,我们不是为了共产主义而共产主义,实现共产主义的目的是为了更好的生活。同样,我们之所以建云计算,其目的是为了更好的服务于我们的业务,这是讲云计算是我们必须要掌握的一个基本前提。 

[[53204]] 
BMC中国高级软件顾问 李二超

在这个前提之下,接下来我们将从业务、从应用、从作业的角度来看我们怎么和云计算做相应的配合。我们将从实用化的角度来看,在云计算的时代,我们业务怎么去跑,我们的应用怎么去跑,我们的作业怎么去跑。所以今天下午我演讲的题目是作业自动化,演绎在云端。

主要的内容分为四个方面:第一,简单介绍一下IT发展方向及作业调度的新挑战。第二,随着云计算,随着虚拟化,随着自动化我们作业方面会做什么调整。第三,介绍BMC Control—M企业级作业调度自动化系统。第四,介绍BMC  Control—M对云计算的支持。

首先看IT发展的方向及作业调度的新挑战。IT发展的方向主要有四个大的方面,一个方面云计算化,过去,我们主要建设物理设备,在以后我们可能更多会把IT的服务当成一种商品,除了自己去建这些东西,我们可能直接购买相应的服务。比如我需要windos的服务器,我可能直接向公有云购买,这样做会是一个非常高效的使用。第二,目前这个阶段用得最广泛的是虚拟化的东西,在我们自己的数据中心,信息中心里面都会用到虚拟化的技术。虚拟化方面也正在向云计算方向靠拢,虚拟化是云计算其中一部分。第三方面是移动化,我现在不需要把我的操作人员,管理人员绑在机房里面,而是把他们解放出来,让他们有活动的自由,这样方便我们操作的用户做自助的服务。最后一个方面对IT管理方面的演进。既然我们有云计算的资源,虚拟的资源,从业务来讲,这些资源对我来讲必须是统一透明的,不管业务跑在物理上,虚拟上还是云计算上,必须要有一个统一的基础。另外一个方面在云计算时代,一个必须要求就是你要进一步提高它的自动化水平,包括云计算提供的自动化,第二包括作业在云计算资源上执行自动化。所以这是四个大概的方向。

那么在云计算时代,云计算环境下,批量调度的新挑战在什么地方?可以从几个方面来看,第一,在云计算时代,你最基本的要求,根据作业处理的需要,根据我们业务的需要,要动态去提供这些资源,云计算核心的概念就是动态随需的概念,避免人工干预和操作,如果云计算时代还是靠人工去判断,其实就不是马拉火车的概念而是马拉飞机的概念了,所以从效率来讲,人工干预是制约效率非常大的瓶颈。第二,要动态分配作业。根据需要选择作业执行是在物理设备上运行,是在虚拟资源上运行,还是在云计算下运行。第三,我们要做透明化一致化的平台,我既可以调度物理资源也可以调度云计算资源,在各种平台上的作业可以有机交互在一起。如果这三个方面不能很好解决的话,就会造成时间上,人力上,跟资源上的浪费。最关键是从云计算的核心来讲,失去了动态随需的资源,云计算也就失去了它真正存在的意义。总结下来,我们在云计算需要避免的问题就是避免浪费时间,避免浪费资源,避免增加错误,避免存在潜在的风险这几个大方面。

怎么去解决这样的问题呢?从我们分析来看,主要几个方面。第一,建设一个支持云计算的企业级集中作业调度管理平台。第二,实现作业调度的自动化,同时整合和规范企业里面的批量作业调度。我们要提倡从业务的价值作为核心,把底层的批量处理,把底层的作业及其管理提升到一个战略的高度。把底层的作业和上面的业务很好的关联起来。方案解决的问题是,在时间上给我们节约,同时节约我们人力资源,第三避免人工操作的错误,最后对客户来讲,对IT来讲,最终目的是降低了风险。这是我们解决问题的主要思路。

我们要把整个作业调度系统和IT流程的自动化进行有机的结合。服务器的部署,业务的提供可能都要做自动化,服务器的部署自动化:比如我做一个服务器的提供,我要在上面做升级跟补丁,我需要要跟作业做关联,我在升级的时候,在重启服务器的时候不能有作业调度到我服务器上执行。再一个就是业务影响分析,假如底层批量作业出了问题,究竟会影响我哪些应用。还有就是跟事件关联,这边作业出了问题是不是可以跟事件平台进行有效关联,通知事件平台进行相应的解决处理。

在云计算的平台下有一个新的发展方向,所谓作业调度也是一个动态适应的过程,有两个方面:一个是资源的优化,既然我现在有虚拟化,有云计算资源,既然我有这个资源池,就要根据作业调度的需要启动这些资源,在作业量大到一定程度的时候,解决不了问题的时候,我才需要这些资源增加进来。第二个方面,动态的自动化。一,我根据现在业务的需要,决定我现在要不要启动某一个业务的流程,或者某一个作业处理的流程。二,易于使用,根据用户的要求,并不是把整个作业调度放在后台通过运行中心集中进行管理,而是我给业务用户也提供了视角,业务用户可以看到作业运行的情况,它可以触发、暂停业务的执行。所以:一个是动态的自动化一个资源的优化,分别是跟云计算和虚拟化做了紧密的结合。

另外看BMC CONTROL—M驱动作业调度在云端。首先是云计算,可以支持运行在云和虚拟化之上的业务应用。第二是虚拟化,通过批处理业务流程管理VMware基础架构。还有一个是移动技术,BMC Control-M提供自助服务,支持移动化。最后一个是IT管理演进,批量处理业务服务和服务器自动化交互,业务自动化和IT流程无缝集成。我们来看一下CONTROL—M的产品,这在BMC是一个旗舰的产品,年收入是3亿美金,超过全公司业务收入的10%左右。超过2700家用户,遍布全球。CONTROL—M产品有超过300人的专职研发团队,年收入的20%用于产品研发,可以不断根据客户使用的需求,比如云计算虚拟化,自动化扩充产品的能力,以顺应产品的潮流。这个产品是有30年的历史,产品的更新方面我们保持每两年有一个大的版本的更新,我们在实际的使用过程中,大量的客户其实是从其他作业调度系统迁移过来的,我们因此定制了一些自动化的迁移工具,方便用户的迁移。

下面是CONTROL—M实现IT运行的简约化、智能化、自动化。把运行走私在底层基础架构上的批量作业跟上层业务有效的关联起来,作为CONTROL—M来讲,是从业务角度看底层的基础架构或者云计算的环境。理想的作业调度方案包括四个大的方面,一个方面是单点控制统一调度,我们要真正建立起企业级的作业调度系统,不管运行在物理上,虚拟上,云计算上,我统一在一个地方对所有作业进行跨平台管理,对这个系统来讲,基本要求就是易扩张高可靠性的体系架构,不论是分阶段部署也好,还是以后随着业务的扩张,我要不断增大规模也好,系统必须支持易扩展的架构。第二,超越监控,智能管理。就是说这个系统必须支持强大的排程能力。并有完善的意外管理及告警,我作业在运行时候出错了,我对各种错误信息的不同可以自动进行处理。可以进行动态调度及分析,再一个作业负荷的虚拟化跟云计算。第三是作业生命周期管理。比如一个企业,你有一万个作业,或者两万个作业构建在一个系统上面,那么对这些作业的定义,更新,版本,备份就是非常现实的问题,提交,等待,运行,返回,分析这些是放在数据库里面,我怎么利用这些信息,怎么把这些信息变成有价值有意义的资产,可以为以后更精细化的管理服务,这也是一个现实的挑战。最后必须要有丰富的报告和审计功能,可以把调度系统里面所进行的定义,运行,或者监控方面的事情做相应的审计和报告。第四个是关联业务服务管理。

我们来看一下BMC CONTROL—M具体的界面,这是一个实时运行的作业流程图。管理员可以实时看到运行的情况,通过这一套系统实现了作业管理的集中化,自动化和可视化,整个作业的运行,同时对作业的监控也可以放在一个界面里面,我可以让一个作业暂停,可以改变它的属性;我可以看这个作业运行的时候究竟有哪些系统输出,我还可以看到它执行的脚本里面有什么样的内容,并且编辑这些脚本,所以实现监管控一体化作业调度的办公室。除了对现在情况了解之外还可以知道过去,我过去是一个什么样的情况,对历史信息的收集。再一个从将来来看运行的状况是什么样的,到月底的时候我哪些作业会跑,作业流的架构是不是符合我的要求。另外我们整个作业定义的界面也支持文本导入的方式。最后我们对自己本身模块的管理,可以在统一的平台上把它给管理起来,在这里我们可以看到,我们自己有多少个服务器,有多少个代理,代理运行的状况怎么样都一目了然。

接下来看一下CONTROL—M提供的自助服务。把业务当前实际运行的状况提供给操作管理人员,可以通过Ipad等其他移动终端登入上来看运作的情况,并且对作业进行相应的控制。下面再来看一下CONTROL—M实现云及虚拟化环境的动态作业管理。再来看一下CONTROL—M使云环境支持大规模批处理的流程。CONTROL—M会根据预定的模版向云计算生命周期管理的API发出请求,服务的策略引擎会根据需要部署这些云计算资源,接下来CONTROL—M在这些资源上支撑作业,如果在作业支撑过程中发现资源不够,可以请求更多的资源。

对于作业调度系统在支持云计算前后究竟有哪些区别?比如早上在北京大家都着急去上班,路的资源是有限的,如果在特别拥堵的时候,就会发生限流的情况,在作业防范的时段并没有办法有效的提供全面服务等级的保障,只能说谁的优先等级高我先满足谁。在IT的环境方面可以根据业务的需要增加业务资源。第二,比较全面的满足服务的优先等级。第三,充分协调业务处理和系统运维。第四,随需使用和释放资源。这里面究竟我们怎么来实现呢?云计算的概念非常广,以后完全是一个云计算生命周期管理的概念,目前我们对于云计算的主流技术我们是怎么去支持呢?在我们需要资源的时候,我们会直接向bladelogic请求资源。从应用层面来讲,CONTROL—M可以和bladelogic进行有效的集成,作业的依赖关系可以通过CONTROL—M统一进行调度,在你升级的时候我就不发作业给你了,但是如果有很紧急的作业要跑的时候,我就不让你去升级,或者把你的升级窗口往后延迟。我们可以看一下对bladelogic集成的界面,比如对服务器的审计,执行完之后就可以直接看审计的结果。第二个方面,我们来看CONTROL—M与Vmware的集成,Vmware主要是几种类型,第一种是启动型的任务,比如我对客户操作系统的重启和关机。第二,配置型任务,我去克隆一个虚拟机,我根据模块部署一个虚拟机,或者我对现在的虚拟机重新调整配置,再有就是我把当前运行在某一个硬件的虚拟机迁移到另外一个地方去。第三个方面任务是快照型任务,我可以摄制快照,恢复快照,删除快照,删除所有快照。对Vmware的集成可以根据规划方案的需要,根据业务的需要启动虚拟机,这样我们就做到了绿色的IT,在我需要的时候把机器重启,在不需要的时候关掉。最后我们来看一下CONTROL—M在整个Vmware环境里面,可以动态迁移Vmware的环境起来加入到集成环境里面来。

最后看一下主流的公共云Amazon EC2,公共云来讲成本相对比较低,对资源使用也是比较好的节约方法,我们可以根据Amazon EC2进行有效的结合,我们可以根据平均消费群部署,或者随需自动请求资源,调整资源,我们可以把EC2的资源释放出去。如果你能根据需要自动起动,自动释放对你来讲成本的节约是不言而喻的结果。另外一个方面,我们可以根据预定的模版去创建新的Amazon实例。

CONTROL—M功能使其方便且现实。一个是无代理技术,告诉代理你要在这台机器上执行什么样的作业,但是在云计算时代部署代理显然不是特别现实,或者说操作难度比较大,我们可以用无代理技术,把新的虚拟机或者新的云计算资源建立起来之后,可以通过通道让作业执行在云计算资源上执行。第二,CONTROL—M配置管理器可以把Vmware等帐号配置在我的管理系统当中去,这样在定义作业的时候,可以直接通过双向集成把服务器自动化和虚拟机自动化或者云计算自动化的工作作为一个作业配置在CONTROL—M里面。第三方面就是内置的脚本,我的作业不放在云计算资源上,而是把脚本放在调度系统里面去,当我需要你执行的时候,我把脚本传递给你让你执行。最后一个是动态节点组,我这个节点组由几台机器构成,根据时间,业务的需要可以决定节点组把哪些节点退出去,把哪些节点加入进来。

我们可以看出,CONTROL—M自动化平台跟云计算虚拟化做了一个有效的集成,可以实现单一节点管理所有作业自动化的任务。第二,实现动态双向安全连接,利用历史信息,避免了手工出错的过程。第三,内置集成市场领先的云计算和虚拟化技术。第四个方面是提供自动故障恢复机制。CONTROL—M有一个非常独特的特点,每个作业执行完之后会做事后分析判断,根据分析判断结果来决定你接下来要做什么动作,可以启动某一个作业流,对目前的故障进行自动化处理。最后一个是提供操作运行角度透明性,对不管是在云计算资源上,还是在物理资源上,还是在虚拟化资源上统一调度分析和进行管理。

BMC CONTROL—M关键成功因素在哪里呢?我们根据客户使用过程中遇到的各种不同问题,不断丰富,不断更新我们的产品,这个产品的安全性,稳定性和可靠性是作为基础不断被国外、国内用户去验证,比如国内有多家用户连续运行多年,这个系统没有产生因为系统软件的问题停机,有相当高的稳定性。在拓展性,易用性和前瞻性方面也做得非常好。另外安全性,稳定性,可靠性方面,做了具体细节的考虑,查找更新方面,版本管理方面,动态分支方面都有独到的功能跟特点。前瞻性方面,CONTROL—M产品,每两年做一个大的版本升级每一年做一个小的版本升级,这个过程之中始终是看着业界新的IT发展的趋势,顺应IT发展的趋势,比如刚才提到的云计算、虚拟化,移动化,同时也在作业调度的专业领域引导作业调度领域潮流,所以这是CONTROL—M成功的一个关键因素。CONTROL—M用户遍布全球,包括银行业用户,证券类用户还有制造类用户使用CONTROL—M产品,去改善IT运行的效率,实现IT运行的简约化,系统化跟智能化的过程。

责任编辑:张玉 来源: 51CTO
相关推荐

2016-10-12 17:18:26

私有云持续交付华为

2009-07-28 09:33:51

云计算平台

2012-06-21 09:51:42

虚拟化

2019-05-20 11:00:54

云计算AIoT开发

2018-06-07 08:20:51

自动化测试移动技术云平台

2015-10-15 17:17:33

云应用平台系统构建实践

2020-12-16 20:07:18

容器技术

2022-02-11 14:03:45

云之旅风险管理公有云

2010-05-25 10:21:01

云计算IT基础

2018-02-02 11:21:25

云计算标准和应用大会

2009-02-01 10:32:00

用友NC企业级云计算服务器

2012-11-12 09:38:12

云计算实践私有云金蝶系统

2014-09-09 14:10:01

企业级HadoopSpark

2013-08-15 09:15:23

云计算CIO信息化

2021-10-11 14:28:25

TypeScript企业级应用

2022-04-28 11:38:13

企业级AI平台选型

2021-01-07 17:04:38

容器架构云原生

2015-05-22 15:29:21

企业移动平台用友iUAP

2013-10-18 11:01:30

OpenStack云计算开源

2009-01-03 14:54:36

ibmdwWebSphere
点赞
收藏

51CTO技术栈公众号